L’ÉMERGENCE DU STYLE

(1)

Les méthodes stylométriques pour la recherche de la paternité des textes médiévaux

MÂRIAS^LAUTINA MÎKHAÏLMÂRUSENKO

L’objectif principal de cet article est de présenter un cas d’application d’une méthode stylométrique computationnelle, ditede reconnaissance des formes, issue de la cybernétique et fondée sur l’extraction et la comparaison des traits syntaxiques. Les paramètres syntaxiques sont extraits des textes et comparés, afin d’en tirer des conclusions sur la proximité des textes dans l’espace multidimensionnel créé au cours de l’analyse, et donc, sur la possibilité d’en établir l’auteur/les auteurs.

(2)

1. La stylométrie comme révélatrice de l’émergence¹

Le style d’auteur, ainsi que le style littéraire tout court, a connu de nombreuses interprétations, à commencer par Pétrarque qui le définissait comme un « air de ressemblance » entre « un orateur et ses discours, un poète et ses poèmes » (Golsenne, 2012, 37), en passant par la définition classique du Dictionnaire d’Oxford qui le caractérise commethe manner of expression characteristic of a particular writer (hence an orator), or of a literary group or period ; a writer’s mode of expression considered in regard of clearness, effectiveness, beauty, and the like (Oxford English Dictionary) et jusqu’aux interprétations formelles et spécifiques proposées par les chercheurs en stylométrie contemporaine – science destinée à déterminer le style d’auteur avec des outils computationnels – qui dépendent de la méthode stylométrique choisie. En effet, depuis une vingtaine d’années, beaucoup d’études de style basées sur les méthodes statistiques ont été menées avec succès (Stamatatos, 2009 ; Juola, 2008). Les procédés statistiques, appliqués au traitement de textes en langues naturelles, y compris en langues anciennes, contribuent à l’une des applications majeures des études stylométriques – la recherche de la paternité des œuvres dont l’attribution est douteuse, des textes anonymes ou des textes écrits sous un pseudonyme.

L’objectif principal de cet article est de présenter un cas d’application d’une méthode stylométrique computationnelle, dite de reconnaissance des formes, issue de la cybernétique et fondée sur l’extraction et la comparaison des traits syntaxiques. Les paramètres syntaxiques sont extraits des textes et comparés, afin d’en tirer des conclusions sur la proximité des textes dans l’espace multidimensionnel créé au cours de l’analyse, et donc, sur la possibilité d’en établir l’auteur/les auteurs. Mais avant de passer à l’exposé de la méthode, il paraît important de s’arrêter sur le concept de style d’auteur et de voir si l’utilisation des méthodes non traditionnelles – comme la nôtre – pourrait projeter une nouvelle lumière sur l’interprétation de cette notion.

1. Je voudrais remercier Jonardon Ganeri pour ses précieux commentaires et suggestions concernant l’application de l’idée de l’émergence sur la notion de style d’auteur. MS.

(3)

L’avènement des méthodes issues desdigital humanities dans les études du style a sans aucun doute un impact sur l’interprétation du concept. Il serait dorénavant possible de distinguer les éléments du premier ordre (les structures syntaxiques, dans notre cas) qui, en se combinant, mènent à l’apparition du style littéraire (propriété du second ordre). À ce titre les méthodes stylométriques nous permettent de parler de l’émergencedu style d’auteur.

Comme le note Jaegwon Kim, la propriété de l’émergence peut être considérée comme telle quand deux conditions sont respectées : la survenance et l’irréductibilité (Kim, 2006). Voyons si ces conditions sont respectées lorsqu’on parle du style en tant que catégorie émergente. Kim dit : « Supervenience/determination: PropertyM supervenes on, or is determined by, properties N¹, …, Nⁿin the sense that whenever anything has N¹, …,Nⁿ, it necessarily hasM» (Kim, 2006, 550). L’utilisation réussie des méthodes stylométriques basées sur divers paramètres textuels, syntactiques dans notre cas, et leur aptitude à cristalliser le style d’auteur, prouve que le style peut survenir à partir de l’assemblage des éléments du premier ordre. Si l’ensemble des traits syntactiques mène à la survenance de l’entité complexe du style, comme il est démontré par la méthode stylométrique choisie, il est possible d’avancer que dans la mesure où des différences existent dans les traits syntactiques, il s’agirait de styles distincts, et inversement, dans le cas de l’absence de différences dans les traits syntactiques, le style, par conséquent, serait le même. Il est important de souligner que les paramètres syntactiques ne sont pas les seuls éléments du premier ordre à partir desquels le style peut survenir, mais leur mesurabilité et leur clarté permettent une démonstration très limpide de la relation de survenance.

L’irréductibilité du style à ses composants élémentaires est également facile à démontrer. Kim avance : «Irreducibility of emergents:PropertyMis emergent from a set of properties, N¹, …, N^n,only ifMis not functionnaly reducible with the set of the Ns as its realizer » (Kim, 2006, 555). Tout en survenant à partir des traits syntactiques du texte, le style ne peut en aucun cas être réduit à eux. Avec la survenance du style, nous assistons à l’apparition d’une nouvelle catégorie plus complexe que ne le sont les éléments du niveau précédent, notamment les structures syntactiques, supérieures par rapport à eux, dotées de propriétés nouvelles, et donc, irréductibles. En même temps les structures syntactiques ont leurs propres

(4)

valeurs et modes de fonctionnement qui ne sont pas répétitifs des valeurs et des modes de fonctionnement des styles (et vice versa) – il s’agit clairement de deux niveaux qui se distinguent par leurs propriétés, qualitativement.

Ainsi, les méthodes stylométriques permettent de « démanteler » les textes, mettant en évidence leurs structures non apparentes à l’œil nu, qui ne sont pas sans rappeler, dans leurs mécanismes, les fonctionnements des espaces sociaux. Tout comme les membres de la société possèdent une certaine autonomie dans le cadre de cette société, les structures textuelles mesurées possèdent une autonomie dans les limites de l’objet qu’est le texte (souvent la place de tel ou tel paramètre dans le texte n’est pas pertinente, comme c’est le cas dans notre recherche ; l’important est de savoir que tel ou tel paramètre est présent dans les limites de ce texte).

Comme la société repose sur ses membres, le style dans son expression syntactique repose sur les connexions des éléments du premier ordre, qu’on appelle les corrélations. Moins la corrélation entre les éléments qui servent à la discrimination des objets est forte, plus ils sont pertinents pour la distinction des styles et des auteurs – la méthode repose sur les connexions faibles de préférence aux connexions fortes. Ce sont donc les relations les moins évidentes qui permettent l’identification la plus précise.

En même temps les paramètres pertinents doivent avoir une forte corrélation avec les autres qui ne font pas partie du groupe discriminatif principal, qui sont, pour ainsi dire, restés dans l’ombre – une vraie démocratie stylistique ! Ainsi chaque paramètre pertinent, tout en étant lié ou corrélé avec les autres et contribuant à l’ensemble, doit-il être représentatif de cet ensemble. À chaque nouvelle attribution, voire itération, ces liens et connexions sont reconfigurés – ils dépendent entièrement du corpus étudié. À chaque fois, donc, une configuration toute nouvelle apparaît².

On vient de prendre pour exemple les éléments du premier ordre, mais dans un cadre plus large, ou en parlant du niveau supérieur par rapport 2. Comme le note M. DeLanda dans ce numéro : « <…> il s’agit ici de concevoir des ensembles émergents, au sein desquels les parties conservent une relative autonomie, pouvant être détachées et rattachées à un autre ensemble dans le but de créer de nouvelles interactions. Les touts indivisibles dont les parties sont reliées entre elles par extériorité sont définis comme desagencements».

(5)

aux structures syntactiques – le style même –, il est possible de tirer un parallèle entre le fonctionnement des cultures littéraires, dont fait partie le style d’auteur, et celui des espaces sociaux. Ces derniers, en effet, subissent l’influence de leurs membres et des structures qui les forment tout comme les premières sont influencées par les effets des styles littéraires. Il est donc possible d’avancer que le style d’auteur est une forme d’agencement littéraire par lui-même, déployé par les auteurs consciemment ou inconsciemment, qui produit un effet direct sur l’espace littéraire en général et sur chaque lecteur en particulier.

2. Les méthodes traditionnelles et non traditionnelles – la concurrence ou l’entraide ?

La nouvelle méthodologie ouvre la voie à une compréhension originale de la notion de style, et sans l’application de la stylométrie les propriétés émergentes de ce dernier seraient difficiles à percevoir. Traiter le style en tant qu’entité émergente nous ouvre une voie entre la Scylla de la perception individualisée du style d’auteur comme une qualité sans structure quelconque et la Charybde d’enfermer le style dans le cadre figé de l’objectivité, le traiter comme égal à un nombre de paramètres et ne présentant donc rien de plus qu’une somme de ces caractéristiques.

Se situant quelque part entre ces deux extrêmes, les études du style peuvent donc profiter à part égale de la méthodologie non traditionnelle et des méthodes traditionnelles. En effet, très souvent la stylométrie se sert des hypothèses et des conclusions des pratiques traditionnelles de la recherche littéraire. Et il serait possible, sans trop d’exagération, d’avancer que toute étude stylométrique, au moins en partie, repose sur une recherche pluridisciplinaire qui permet d’établir la datation approximative de l’œuvre, le cercle de ses auteurs supposés s’il y en a plus qu’un, l’histoire de sa parution, l’état des manuscrits, et va parfois jusqu’à inclure des faits de langue, « traits de style », ou comme les appelle le linguiste J.-M. Adam

« faits de texture » (Adam, 1997). Mais si pour les pratiques traditionnelles ces évidences sont ce sur quoi repose la recherche toute entière, là où elle s’arrête et d’où elle tire ses conclusions, pour la stylométrie elles ne constituent que le début, le travail préliminaire, une position de l’hypothèse, mais sans quoi l’avancement serait difficile voire impossible.

(6)

Les pratiques traditionnelles entrent également en scène lors de l’interprétation des résultats obtenus avec les méthodes quantitatives.

L’une des grandes distinctions de la stylométrie numérique par rapport aux recherches de style traditionnelles est leur ouverture potentielle vers le

« grand public ». Bon nombre d’outils en ligne ont été développés par des chercheurs en stylométrie et des enthousiastes, qui sont accessibles à tous, souvent gratuitement. La méthode présentée dans cet article ne possède pas pour l’instant de plateforme sur Internet ou de logiciel facile à utiliser³, en raison de sa relative difficulté d’emploi (qui la rend en même temps surtout applicable à la recherche de la paternité des textes médiévaux), pourtant beaucoup d’autres disposent soit de l’un, soit de l’autre, soit des deux. Des algorithmes faciles à utiliser permettent leur application au-delà du milieu ultra-professionnel et académique et sont à la disposition des organismes et personnes qui sont intéressés par le style dans son sens appliqué – tels sont, par exemple, les outils dédiés à reconnaître et à traquer le plagiat. Il existe des sites conçus d’une manière ludique – qui peuvent analyser n’importe quel texte rentré pour son style, et démontrer combien il est proche du style de tel ou tel écrivain. Il existe également une version en ligne de l’outil Delta, développé par J. Burrows, qui est connu pour ses résultats encourageants sur le matériel en anglais. Un nouveau développement des méthodes stylométriques est de les utiliser « against itself to preserve anonymity (or to suggest a false identification) » (Reilly, Dillon, 2013, 61), ce qui paraît avoir de l’avenir dans le monde d’aujourd’hui de plus en plus transparent.

Tout n’est pourtant pas rose dans l’évaluation des avantages apportés par les méthodes nouvelles dans le domaine de la recherche de la paternité des textes – il faut tenir compte des critiques, par exemple de l’évaluation peu flatteuse de l’état de non-traditional authorship attribution par Joseph Rudman (2012). Rudman évoque des moments discutables concernant l’état actuel des études stylométriques sur la paternité des textes, et il 3. Bien qu’actuellement des recherches soient menées dans le but d’informatiser au moins certaines étapes de la méthode de reconnaissance des formes, dans le cadre du Département des systèmes informatiques de l’Université d’État de Syktyvkar, Russie, sous la direction de Sergey Khosyainov : Avtomatizatsia atributsionnyh issledovaniy (Automatisation des recherches de la paternité), dans Innovatsii i traditsii nauki i obrazovania, Actes de la II Conférence Panrusse de la Science et Méthodologie, Université d’État de Syktyvkar, 2011, p. 250-256.

(7)

remarque : « it is over forty-five years and over fifteen non-traditional authorship attribution and still there is no consensus as to correct methodology or technique – if anything, the methodology has become even more diverse ». Pourtant, à notre avis, cette assertion attesterait plutôt de la progression adéquate de la stylométrie, car il n’y a rien de plus naturel lors du développement d’une science que la multiplication des méthodologies et la mise au point des méthodologies croisées se servant de la variété de procédés et de moyens. Cela est vrai pour la recherche

« traditionnelle ». L’autre argument contre cette critique est la grande diversité de langues dans lesquelles sont écrits les textes analysés : serait-il possible d’entrevoir une méthodologie unique qui serait également fructueuse pour des langues de structures et d’époques différentes ? Nous en doutons.

3. La stylométrie et les œuvres médiévales. L’application de la reconnaissance des formes à un texte médiéval, problèmes et défis

La stylométrie appliquée aux œuvres prémodernes est un développement tout nouveau. Une dizaine d’années plus tôt, on se serait demandé : est-il vraiment possible de « croiser » deux réalités si différentes, une œuvre médiévale à la paternité discutée et des procédés de linguistique mathématique ? Où se trouverait-il, ce point d’intersection entre la tradition manuscrite et les dernières technologies linguistiques ? Aujourd’hui la réponse à ces questions est plus évidente qu’elle ne l’était à l’époque, et elle réside non seulement dans la création de bases numériques de manuscrits médiévaux accessibles dans les bibliothèques et, de plus en plus, en ligne. Les textes des auteurs médiévaux commencent également à être traités et analysés avec les outils élaborés par la linguistique mathématique, y compris la stylométrie. De récents travaux traitant des problèmes de paternité des œuvres médiévales avec des outils mathématiques ont paru (Slautina, 2012 ; Kestemont, 2012 ; Reilly, Dillon, 2013), un nouveau journal vient d’être lancé, publié par Jonhs Hopkins University Press et destiné spécialement à la recherche à l’intersection des humanités numériques et des études médiévales (Digital Philology : A Journal of Medieval Cultures).

La reconnaissance des formes, appliquée à la recherche des auteurs d’œuvres littéraires anonymes ou écrites sous pseudonyme, a fait ses

(8)

preuves sur des textes écrits en russe et en français moderne. La méthode a été utilisée avec succès pour répondre à de plus grandes énigmes littéraires du XX^e siècle, telles que l’attribution du roman Le Don paisible, dont l’auteur présumé Mikhaïl Cholokhov s’est vu attribué le prix Nobel de littérature en 1965 (Marusenko etal, 2001). Une étude des pièces de théâtre de Molière et de Corneille a permis d’avancer un argument de poids pour la résolution du « problème Corneille-Molière » qui a fait couler beaucoup d’encre (Marusenko et Rodionova, 2010).

Cette méthode est ici pour la première fois adaptée à un texte rédigé dans une langue ancienne, ce qui constitue un des enjeux principaux de la recherche. La difficulté fut de trouver les approches, valables pour une langue morte et pas entièrement grammaticalisée, qui permettent un passage correct des modèles linguistiques et textuels aux modèles mathématiques ; une fois les modèles mathématiques obtenus, le processus d’attribution se déroule d’une façon identique pour n’importe quel texte.

La tâche essentielle de la première étape de l’attribution consiste donc à trouver les moyens satisfaisants pour éviter les fautes aléatoires qui risqueraient de brouiller les résultats de la recherche.

La tâche est considérablement compliquée par le fait qu’il s’agit d’œuvres anciennes, transmises par des manuscrits qui ne nous offrent pas toujours le même texte dans la mesure où les copistes ne respectaient pas (ou ne connaissaient pas) le texte authentique de l’auteur. De là découlent deux problèmes essentiels. Le premier concerne le choix de l’édition de référence qui doit être « sans reproche » vu l’importance que recouvre l’aspect du texte dans le cadre de cette recherche. Or, il est malheureusement impossible de faire paraître une édition des textes médiévaux des XII^eet XIII^esiècles qui reflèterait entièrement et de manière certaine la conception et le style de l’auteur. C’est pourquoi, ne possédant pas un manuscrit recopié par une personne unique qui comporterait les six romans de notre corpus, nous avons privilégié l’édition des œuvres complètes de Chrétien de Troyes parue dans les éditions de la Pléiade, dirigée par Daniel Poirion (Chrétien de Troyes, 1994). Elle présente plusieurs avantages incontestables : premièrement, c’est une édition de la copie Guiot qui comporte les cinq romans de Chrétien de Troyes d’attribution certaine, puis c’est une édition critique qui présente toutes les variantes et les leçons des autres manuscrits ; deuxièmement, cette édition, incluant le roman Guillaume d’Angleterre, est revue par la même personne

(9)

qui en a établi les normes et les règles éditoriales. Le texte de Guillaume d’Angleterre paru dans la Pléiade est édité par Anne Berthelot qui a privilégié le manuscritP(la tradition manuscrite deGuillaumeest limitée à deux copies, P et C, toutes les deux considérées comme complètes et pouvant servir de base pour les éditions du roman).

Le second problème implique un travail préparatif important qui concerne l’étude du fonctionnement de la syntaxe de l’ancienne langue française, de ses aptitudes à être traitée selon les paramètres proposés par la théorie grammaticale contemporaine et impose un certain

« aménagement » du corpus des paramètres en fonction des particularités de la langue. Parfois, nous avons dû recourir aux grammaires basées sur la langue contemporaine pour pouvoir « figer » les normes encore floues à l’époque de la rédaction du roman ; ceci bien évidemment, en tenant compte des spécificités de l’ancien français. Nous avons par exemple décidé de compter les compléments directs, indirects et circonstanciels ou, pour le dire autrement, les mots qui avec le respect du système bicasuel auraient une forme de cas régime, dans le même groupe intitulé « mots en cas régime », de même que nous avons compté les sujets et leurs groupes en tant que « mots en cas sujet ». Cela a permis d’éliminer l’influence des copistes sur la représentation du système casuel qui, au moment de la création des manuscrits, était déjà en voie de disparition⁴. Finalement, il semble que les règles établies ont permis de construire un système de coordonnées qui a été respecté tout au long du travail, et d’éviter l’intrusion d’une faute aléatoire qui aurait pu corrompre les résultats de la recherche. Un exemple de dépouillement statistique du texte sera présenté dans le paragraphe consacré à l’attribution.

4. Qui en est l’auteur présumé ?

Pour l’application de la méthode de reconnaissance des formes sur un texte médiéval nous avons choisi le roman du XII^e siècle communément 4. Nous ne nous rangeons pas ce faisant du côté « Lachmannien » dans le traitement des manuscrits, qui présuppose la création de la « meilleure » version du texte à partir de plusieurs versions, et la reconstruction du texte selon des idées sur son existence idéale. Il serait préférable de comprendre cet arrangement comme une préparation nécessaire du matériel que sont les textes pour le traitement à l’aide des outils numériques.

(10)

intitulé Guillaume d’Angleterre. La raison de ce choix est simple – la paternité de ce texte parvenu jusqu’à nous en deux versions est plus largement discutée par les chercheurs que n’importe quelle autre attribution d’œuvre médiévale, car elle est liée au nom du plus grand écrivain de l’époque, Chrétien de Troyes.Crestiiens se veut entremetre, sans nient oster et sans nient metre, de conter un conte par rime […](v. 1-3) : ainsi commence Guillaume d’Angleterre. Le vers 1 du roman pose donc la problématique de notre recherche, ce « Crestiiens » serait-il Chrétien de Troyes, l’auteur du XII^esiècle qui est présumé avoir composé cinq romans arthuriens, ainsi qu’une interprétation d’Ovide connue sous le nom de Philomena?

Dans le présent article nous n’allons pas exposer en détail l’historique de l’attribution deGuillaume d’Angleterre, puisque notre but principal est de présenter l’application de la méthode stylométrique à l’attribution de ce texte en ancien français. Il nous paraît néanmoins nécessaire de poser quelques jalons qui aideront le lecteur à se retrouver dans l’état actuel du problème.

Tout spécialiste de la littérature médiévale française connaît la discussion qui a lancé la polémique sur la paternité du roman, et plus précisément, sur son appartenance à la plume de Chrétien de Troyes.

Cette discussion s’est déroulée entre les deux éminents médiévistes du XX^e siècle, Maurice Wilmotte et Frédéric-Joseph Tanquerey, dans les pages de Romania, et a donné le ton à l’analyse postérieure de la paternité de l’œuvre (Wilmotte, 1920 ; Tanquerey, 1931). Le débat a été repris par Gustave Cohen qui a soutenu l’attribution du texte à Chrétien de Troyes, mais en considérant l’absence dans le roman des motifs celtiques et de l’amour courtois, traits caractéristiques de l’œuvre de l’écrivain, le médiéviste a placé le roman vers le début de sa carrière littéraire (Cohen, 1948). Charles Foulon rejoint le camp des supporteurs et considère le roman comme une œuvre aristocratique par excellence, qui fait l’éloge des idéaux courtois, notamment de l’admiration pour la femme (Foulon, 1950). Le roman ne peut pas avoir comme protagonistes le roi Arthur et ses chevaliers, remarque Fausto Rebuffat, parce que ce n’est tout simplement pas son sujet (Rebuffat, 1951). Pourtant Chrétien fait un bon travail de conteur en brodant sur la trame qui lui est parvenue, et utilise tout son savoir-faire d’écrivain. Maurice Delbouille procède à l’étude des rimes « banales » de Guillaume, en les comparant respectivement avec les

(11)

rimes « banales » (c’est-à-dire répétées dans le texte au moins une fois) tirées des textes suivants : trois romans de Chrétien de Troyes, deux romans de Gautier d’Arras, le Roman de Troiede Benoît de Sainte-Maure et l’œuvre de Marie de France (Delbouille, 1973). Ainsi, trois groupes se dessinent : dans le premier, entrent les romans de Chrétien et Guillaume, dans le deuxième, les romans de Gautier, enfin, dans le troisième, figurent leRoman de Troieet l’œuvre de la poétesse Marie de France.

Les opposants de l’attribution du roman à l’auteur champenois ne sont pas restés inactifs non plus. Jean Frappier se révèle sceptique sur l’attribution du roman au maître champenois, et considère que le talent de conteur de l’auteur deGuillaume est bien inférieur à celui de Chrétien de Troyes (Frappier, 1957). En plus, l’auteur ne dit rien de Guillaume dans son énumération des ouvrages précédemment composés du prologue de Cligès. Dans le travail de Wolfgang Brand l’attribution du roman à Chrétien de Troyes est également rejetée (Brand, 1972). Le chercheur fonde ses conclusions sur l’analyse des deux techniques littéraires préférées de Chrétien : entrelacement (Reihentechnik) et duplication (Doppeltechnik) ; or, d’après Brand, dans le texte de Guillaume d’Angleterre, les deux sont absentes. Lars Lindwall compare les traits stylistiques et syntaxiques des romans de Chrétien – pour les traits syntaxiques il ne mesure d’ailleurs que la longueur de la phrase – avec ceux tirés de Guillaume (Lindwall, 1981). Il en arrive à la conclusion que deux des six textes analysés n’ont rien à voir avec les autres, ce sont Guillaume et Erec et Enide. Pourtant c’est justement dans le prologue du dernier que l’auteur se nomme pour une seule fois par son nom complet « Chrétien de Troyes », qui se limite partout ailleurs à « Chrétien ». Le tout dernier article portant sur la paternité de Guillaume d’Angleterre, faisant partie de la critique

« traditionnelle », a paru également dans la Revue de linguistique romane (Zufferey, 2008). François Zufferey y analyse les termes régionaux dans les deux manuscrits conservés du roman, et arrive à la conclusion que Guillaume aurait été écrit par un auteur d’origine picarde, qui portait le même nom que l’auteur champenois. Nous ne présentons ici qu’une petite fraction de la vaste bibliographie d’écrits consacrés à Guillaume d’Angleterre et à son attribution. Des travaux analysant son genre, ses origines, ses manuscrits et ses caractéristiques composent également une grande partie de sa critique littéraire et contribuent considérablement aux études de sa paternité.

(12)

En examinant les recherches antérieures consacrées à l’étude de la paternité de Guillaume d’Angleterre, nous constatons la grande divergence d’opinions et la grande divergence de méthodes d’analyse. Or, bien que la plupart d’entre elles méritent l’attention et contribuent à la résolution de l’énigme de la paternité de Guillaume, il n’y a eu, pour l’instant, aucune recherche s’appuyant sur les méthodes de la stylométrie contemporaine.

Ici, comme le notent Reilly et Dillon « what is needed are quantitative, scientific analyses to accompany quantitative, stylistic data » (Reilly, Dillon, 2013, 63). Nous avons décidé de combler cette lacune et avons procédé à la recherche en utilisant la méthode de reconnaissance des formes, largement employée dans le domaine de l’intelligence artificielle.

5. La recherche de la paternité deGuillaume d’Angleterre

La méthode de reconnaissance des formes a été élaborée, mise au point et appliquée à la recherche des textes anonymes ou écrits sous pseudonyme par Mikhaïl Marusenko (1990). L’application de la méthode sur le texte médiéval a été effectuée par Maria Slautina (2009).

5.1. L’élaboration préliminaire de paramètres

Le succès de la procédure d’attribution dépend de l’exécution d’un certain nombre d’étapes dans un ordre préétabli. La première étape consiste en l’élaboration préliminaire de paramètres. Le premier problème d’application de la méthode réside dans le choix de paramètres qui caractériseront la description initiale de l’objet (du texte attribué). Pour cette recherche, il est donc essentiel de définir les paramètres qui se révèlent pertinents pour différencier les textes.

Actuellement, le nombre de paramètres utilisés en matière de quantification des styles, y compris les unités lexicales, syntactiques, sémantiques et autres, tels que n-grams (Stamatatos, 2009) s’élève à plusieurs centaines. À notre avis, ce serait une erreur que d’attribuer un texte médiéval en se basant sur d’autres unités textuelles que les structures les plus latentes. Premièrement, il est toujours beaucoup plus évident d’imiter, par exemple, les unités du niveau lexical, plus superficiel, plus facile à « capter » et plus lié au sujet traité, que de récréer les mêmes structures syntaxiques, celles-ci étant plus cachées, latentes et difficiles à

(13)

repérer sans avoir recours à des méthodes spécifiques. Deuxièmement, et cela est surtout important pour les œuvres anciennes transmises par la tradition manuscrite, dont les autographes soit n’existent plus, soit n’ont jamais existé, l’analyse des structures latentes nous permet de voir « à travers » les altérations probables des scribes. L’analyse syntaxique nous permet dans ce cas d’éviter l’influence volontaire ou non volontaire des scribes, due à la mode, à l’influence régionale ou à l’imitation, et qui a souvent été limitée à des choix lexicaux⁵.

Tableau 1. Inventaire préliminaire de paramètres

X01 nombre de mots dans une phrase simple indépendante X02 nombre de propositions simples dans une phrase X03 nombre de propositions principales

X04 nombre de propositions coordonnées

X05 nombre de propositions coordonnées sans verbe au mode personnel X06 nombre de propositions subordonnées

X07 nombre de propositions subordonnées du 1êrniveau X08 nombre de propositions subordonnées du 2êniveau X09 nombre de propositions subordonnées du 3êniveau

X10 nombre de propositions subordonnées du 4^eniveau et des niveaux postérieurs X11 nombre de propositions simples sans substantif sujet

X12 nombre de propositions subordonnées sans verbe au mode personnel X13 nombre de propositions incises

X14 nombre de propositions embrassantes

X15 nombre de mots de la première classe (mots lexicaux)

X16 nombre de mots de la seconde classe (mots grammaticaux, mots accessoires) X17 nombre de substantifs

X18 nombre d’adjectifs X19 nombre de pronoms

X20 nombre de verbes au mode personnel X21 nombre de verbes au mode impersonnel X22 nombre d’adverbes

5. Bien qu’il existe une certaine stabilité des mots rimés, comme il a été démontré sur des textes en vers écrits en moyen hollandais (Kestemont, 2012).

(14)

X23 nombre de prépositions X24 nombre de conjonctions

X25 nombre de conjonctions de subordination X26 nombre de conjonctions de coordination X27 nombre d’attributs

X28 nombre de mots au cas sujet X29 nombre de mots au cas régime X30 nombre de sujets

X31 nombre de pronoms-sujets

X32 nombre de groupes de termes multiples

X33 nombre de membres des groupes de termes multiples X34 nombre de prédicats multiples

X35 nombre de groupes multiples de compléments du verbe X36 nombre de tours participiaux

X37 nombre de membres des tours participiaux X38 nombre d’attributs participiaux développés

X39 nombre de membres des attributs participiaux développés X40 nombre d’adjectifs qualificatifs et d’adjectifs déterminatifs X41 nombre d’adjectifs verbaux

X42 nombre d’appositions

X43 nombre d’appositions nominales X44 nombre de termes isolés

X45 nombre de membres des termes isolés X46 nombre de propositions absolues

X47 nombre de termes de propositions absolues X48 nombre de propositions infinitives

X49 nombre de termes de propositions infinitives X50 nombre de groupes nominaux minimaux X51 nombre de syntagmes nominaux

X52 nombre de termes de syntagmes nominaux

X53 nombre de mots de la première classe dans le syntagme nominal X54 nombre de mots de la seconde classe dans le syntagme nominal

Le tableau 1 comprend la liste de 54 paramètres préliminaires qui forment la description initiale des objets lors de l’extraction des données.

Les paramètres du tableau 1 peuvent être considérés comme universels.

(15)

Pourtant, en fonction de la langue dans laquelle sont rédigés les objets susceptibles d’être analysés, cet inventaire peut subir des changements. Par exemple, pour les textes écrits en russe, les paramètres X46 et X47 (le nombre de propositions absolues et le nombre de termes de propositions absolues) ne sont pas valables. De même, 6 paramètres sur les 54 préliminaires se sont révélés non valables pour les textes écrits en ancien français. Ce sont les paramètresX36 – nombre de tours participiaux,X37 – nombre de membres des tours participiaux, X38 – nombre d’attributs participiaux développés, X39 – nombre de membres des attributs participiaux développés,X44– nombre de termes isolés,X45– nombre de membres des termes isolés.

Les paramètres X36, X37, X38, X39 reflètent des notions grammaticales appartenant à des langues qui ne font pas partie du groupe des langues romanes : il est impossible de les utiliser pour le français et pour l’ancien français. Les paramètresX44etX45pourraient être valables s’il s’agissait du français moderne, ou du français des XVIIê-XVIIIê siècles, qui n’était pas définitivement réglementé, mais qui connaissait les règles de la ponctuation. Le cas du français du XIIê siècle est différent – la ponctuation n’existe pas dans les manuscrits, les règles de ponctuation ne sont pas encore établies. On pourrait nous répliquer que nous avons travaillé sur des éditions de textes ayant une ponctuation tout à fait contemporaine qui conduit à isoler un bon nombre de termes. Pourtant puisqu’un terme isolé dans une édition contemporaine de manuscrit du Moyen Âge est défini comme tel seulement par rapport à son isolement, c’est-à-dire qu’il est entouré ou non par des signes de ponctuation, ce qui s’applique ou ne s’applique pas en fonction de la volonté de l’éditeur (il existe des cas plus indépendants, nous l’admettons, mais la plupart ne le sont pas), nous avons décidé d’exclure les paramètres qui n’ont pasa priori de rapports avec le texte initial de l’auteur. Bien sûr, nous nous sommes servis des éditions contemporaines des textes pour notre travail et nous étions obligés de prendre en considération la division des textes proposée par les éditeurs. On pourrait ajouter que la division par les phrases nous paraît plus objective que la division par sens à l’intérieur de la phrase. De plus, la division des textes par les phrases est « le mal nécessaire » que nous avons été obligés d’accepter. Cela ne veut pas dire, néanmoins, que nous ne voulons pas limiter la quantité des facteurs subjectifs qui influencent les résultats de notre travail.

(16)

Dans le but de formaliser les procédures d’évaluation des données pour chacun des paramètres, il est nécessaire de procéder de manière similaire dans tous les cas similaires, même si la question de tel ou tel cas se trouve discutable du point de vue de la grammaire traditionnelle. De cette façon, nous arrivons à minimiser l’erreur aléatoire, pouvant intervenir dans le cas où l’on obtient un grand nombre de données de même dimension par des procédés contradictoires, et à tenir compte de l’erreur systématique qui peut apparaître dans le cas où l’on obtient un grand nombre de données de même dimension par des procédés similaires. Ci-dessous sont présentés des exemples de l’extraction des données pour le paramètre X2 – nombre de propositions simplesdans une phrase.

L’usage traditionnel utilise le terme de proposition pour identifier les phrases constituantes dans les phrases complexes. Les propositions peuvent être combinées dans une phrase par coordination, juxtaposition ou subordination (pour les textes étudiés, le mode de composition dit de juxtapositionest inclus dans le même paramètre que celui decoordination).

Lors rechiet a terre pasmee, Et quant ele releva sus,

Si se rescrie plus et plus (Erec, v. 4652-4654)⁶. Total : 3 unités.

Or est Amors tornee a fable Por ce que cil qui rien n’en santent Dïent qu’il aiment, mes il mantent, Et cil fable et mançonge an font

Qui s’an vantent et droit n’i ont (Yvain, v. 24-28).

Total : 8 unités.

5.2. L’élaboration d’un alphabet préliminaire de classification

L’alphabet préliminaire de classification détermine les modèles mathématiques des objets d’après lesquels est menée la procédure d’attribution des œuvres à identifier. Dans le présent travail nous avons trois objets préliminaires (ou objets a priori) ; chacun de ces objets 6. Cet exemple et le suivant sont cités par l’édition deLa Bibliothèque de la Pléiade, 1994.

(17)

correspond à l’un des romans de Chrétien de Troyes :Erec et Enide,Cligès etYvain ou Chevalier au Lion, dont l’appartenance à la plume de l’écrivain n’est pas contestée.

Le corpus de l’alphabet préliminaire de classes est formé en tenant compte de l’homogénéité de ses unités par rapport à leur genre, leur style, leur thème et, enfin, leur date de création. Dans ce cas, nous avons affaire à des romans dits courtois, tous écrits en ancien français, dans la seconde moitié du XII^e siècle, sur un laps de temps de cinq à trente ans, selon les chercheurs⁷.

5.3. La sélection des paramètres informatifs

Comme toute procédure de classification typée, la procédure d’attribution par la méthode de reconnaissance des formes n’est pas envisageable sans la première étape qui est essentielle pour ce type de recherche, et qui précède l’attribution : le choix de l’espace paramétrique et sa réduction. L’espace paramétrique de cette étude se compose de 48 paramètres valables de la nomenclature préliminaire de paramètres.

L’étape suivante consiste en la réduction de cet espace paramétrique jusqu’à l’obtention d’un nombre réduit de paramètres informatifs à partir de ces 48 paramètres initiaux.

Afin d’effectuer la sélection des paramètres informatifs, nous avons procédé à la description des objets initiaux à l’aide du nombre total de paramètres initiaux valables. Ainsi, des échantillons aléatoires, de 200 phrases chacun, ont été extraits de chaque objet de la première classification ; à partir de ces échantillons nous calculons la valeur de la dispersion. Ensuite, la taille réelle de l’échantillon est mesurée selon une 7. Les opinions de différents chercheurs divergent, pour plus d’informations concernant la chronologie de l’œuvre de Chrétien de Troyes on pourra se référer aux ouvrages suivants : Foster E. Guyer, « The chronology of the earliest french romances », dansModern Philology, n° 3, t. XXVI, Feb. 1929, p. 257-277 ; Maurice Wilmotte, « Une source historique de Chrétien ? » dans Romania, t. 60, 1934, p. 201 ; Jean Frappier, Les romans courtois, Paris, Larousse, 1944, p. 8 ; William Thomas Hobdel Jackson,The Literature of the Middle Ages, New York, 1960, p. 101 ; Alice Colby,The portrait in XII-th century French Literature, Genève, 1965, p. 10-11, ouA Companion to Chrétien de Troyes, edited by Norris J. Lacy and Joan Tasker Grimbert, D.S. Brewer, 2005.

(18)

méthode qui tient compte de l’erreur standard (ou erreur type) de chacun des paramètres participant à la classification.

Les résultats de cette description sont présentés sous la forme d’une matrice de données objets-indices x = 48 x 200 pour chaque objet où est le nombre de paramètres et est la taille de l’échantillon. Le nombre total d’éléments constituant les matrices atteint 9 600. Ce nombre élevé a provoqué le renversement de la configuration des matrices, et les lignes correspondantes présentent donc les valeurs initiales des paramètres, les colonnes les valeurs réelles des paramètres dans les objets (les phrases).

Nous avons calculé ensuite deux estimations statistiques pour chaque objet : la moyenne arithmétique et l’écart type .

Le schéma de Bongarda été employé lors de la formation de l’espace des paramètres informatiques. C’est une méthode qui suppose la réduction de l’espace paramétrique en deux étapes. La première étape consiste dans la subdivision de l’ensemble des paramètres initiaux en deux sous-ensembles de paramètres, pertinents et non pertinents, pour différencier les classes ou les objets. Pour la mise en œuvre de cette étape, nous avons procédé à la classification automatique des objets et des paramètres dans l’espace unidimensionnel. La validité de chacun des paramètres est déterminée à l’aide ducritère t de Studentdont le seuil de rejet, la valeur seuil limite, est de 1,96 avec un risque d’erreur égal à = 0,05 :

Nous procédons ensuite à la comparaison des résultats obtenus. Si la valeur du critère t dépasse le seuil de rejet, le paramètre est informatif.

Dans le cas contraire, le paramètre est exclu de l’expérience (voir tableau 2).

Dans le tableau 2 nous avons pointé en gras les valeurs des paramètres qui dépassent le seuil de rejet de 1,96, pour chaque paire de romans.

Ensuite nous avons extrait les valeurs qui dépassent la valeur limite pour au minimum deux des trois paires de romans. Ainsi, la différence significative des paramètres suivants est révélée : Х02, Х03, Х04, Х06, X07, Х08, Х11, Х16, Х17, X19, X20, Х23, Х24, Х25, Х28, Х29, Х30,

(19)

Х31, X46, X50. Tous les autres paramètres sont reconnus non pertinents pour la différenciation des classes et des objets.

Pourtant, avant de passer à l’étape suivante du schéma de Bongard, il est nécessaire d’exclure de l’analyse ultérieure les paramètres dont les valeurs sont infimes dans le cas des textes étudiés. Ce sont les paramètres suivants :

X05 – nombre de propositions coordonnées sans verbe au mode personnel. La faible fréquence de ce paramètre est explicable pour l’ancien français où le verbe servait de noyau à la phrase, le sujet étant souvent absent.

X10 – nombre de propositions subordonnées du 4^e niveau et des niveaux postérieurs. Vu l’absence de ponctuation de l’auteur dans les textes étudiés, nous avons dû nous fier au travail des éditeurs en ce qui concerne le découpage du texte. Ainsi, pour minimiser la possibilité d’une erreur systématique, nous avons compté pour un signe délimitateur de la fin de la phrase un point, un point de suspension, un point d’interrogation, un point d’exclamation et un point-virgule, ce dernier étant largement employé dans les éditions savantes pour marquer la fin de la phrase logique. Les chaînes de subordination, par conséquent, atteignaient rarement le niveau 4^eet les niveaux postérieurs.

X12 – nombre de propositions subordonnées sans verbe au mode personnel. Comme dans le cas du paramètreX05la faible fréquence de ce paramètre est expliquée par le rôle majeur du verbe dans la phrase.

X41 – nombre d’adjectifs verbaux. En ancien français il est difficile de distinguer les adjectifs verbaux des participes présents, les deux parties du discours pouvant changer de genre et de nombre.

X46– nombre de propositions absolues.

X47– nombre de termes de propositions absolues.

Ainsi, les données du paramètreX46 ne participeront pas aux calculs ultérieurs, malgré la différence des moyennes valable pour la différenciation des objets. À partir de ce moment, nous aurons affaire à un corpus contenant 19 paramètres valables pour la différenciation des objets.

(20)

Tableau 2. La vérification de l’hypothèse sur la validité statistique des différences des deux moyennes

Paramètres Cligès/Yvain Cligès/Erec Yvain/Erec

X1 0,337 1,92 2,423

X2 1,236 3,445 2,229

X3 0,619 4,710 4,504

X4 2,192 0,7482 2,904

X5 1,349 2,164 1,227

X6 0,255 5,028 4,734

X7 0,666 4,223 3,746

X8 0,320 3,017 3,204

X9 0,247 1,309 1,081

X10 1,639 1 1,137

X11 0,209 2,554 2,832

X12 0,557 1,003 0,963

X13 0,245 1,842 1,439

X14 0,702 2,419 1,651

X15 1,574 3,272 1,654

X16 2,976 4,408 1,613

X17 3,07 2,728 0,276

X18 1,087 1,756 0,594

X19 0,384 2,965 3,298

X20 1,567 3,653 2,081

X21 0,974 0,542 1,447

X22 0,213 2,172 1,929

X23 3,985 3,832 0,304

X24 0,263 3,497 3,239

X25 0,364 3,937 3,609

X26 0,079 1,555 1,556

X27 1,371 0,232 1,451

X28 0 2,005 2,09

X29 2,571 2,477 0,066

X30 0 2,67 2,644

X31 1,138 2,558 3,615

X32 1,453 1,201 0,294

X33 1,992 1,21 0,804

X34 1,107 1,134 0,041

X35 2,361 1,027 1,319

X40 0,631 0,977 0,287

X41 0,612 0,588 0

X42 1,454 0,184 1,868

X43 1,454 0,28 2,012

(21)

Paramètres Cligès/Yvain Cligès/Erec Yvain/Erec

X46 3,284 2,904 1

X47 2,041 1,955 1

X48 0,836 1,026 0,184

X49 0,266 0,468 0,212

X50 4,038 2,912 0,975

X51 0,087 0,647 0,589

X52 0,386 1,293 0,983

X53 0,382 0,982 1,405

X54 1,977 1,777 0,302

La deuxième étape du schéma de Bongard implique la réduction de l’espace paramétrique basée sur le sous-ensemble de paramètres informatifs obtenus. Cette procédure consiste dans le traitement de la matrice corrélative des paramètres, qui est obtenue d’après les données de trois matrices de données objet-indice. Cette matrice corrélative est obtenue à partir d’une matrice de données objet-indice, et ses éléments présentent des coefficients de corrélation binaire de deux paramètres. Sa dimension est x , où = 42⁸. Elle est symétrique par rapport à sa diagonale centrale, sur laquelle sont situées les unités égales à 1 (c’est-à-dire la corrélation de chaque paramètre avec lui-même). Le critère informatif de ce corpus de paramètres repose sur une corrélation faible des paramètres informatifs entre eux et une corrélation forte avec les paramètres qui ne font pas partie de ce groupe et qui sont exclus de l’analyse ultérieure.

La corrélation moyenne intraclasse est calculée pour chaque paramètre à partir des données de la matrice de corrélation :

où = 19, est le coefficient de corrélation des paramètres et ; ainsi que la corrélation moyenne interclasse :

8. Cette donnée est calculée sur la base de 54 paramètres initiaux d’où nous avons soustrait les six paramètres non valables pour les textes en ancien français, et six paramètres à faible fréquence.

(22)

où = 42, = 19, est le coefficient de corrélation des paramètres dans la matrice. Ensuite l’efficacité de chaque paramètre est calculée sur la formule :

Tableau 3. Calculs de l’efficacité des 19 paramètres

Paramètres

Х02 0,292 0,659 0,442

Х03 0,251 0,574 0,436

Х04 0,169 0,282 0,599

Х06 0,262 0,608 0,431

Х07 0,222 0,518 0,428

Х08 0,186 0,434 0,429

Х11 0,23 0,533 0,432

Х16 0,36 0,565 0,637

Х17 0,353 0,43 0,821

Х19 0,214 0,535 0,401

Х20 0,322 0,613 0,526

Х23 0,269 0,398 0,676

Х24 0,351 0,517 0,678

Х25 0,222 0,491 0,452

Х28 0,224 0,417 0,538

Х29 0,351 0,477 0,735

Х30 0,213 0,525 0,405

Х31 0,164 0,463 0,355

Х50 0,217 0,37 0,588

En examinant les données du tableau 3, nous constatons que le sous- ensemble de 19 paramètres se retrouve découpé en deux sous-ensembles : un sous-ensemble de 5 paramètres (X16, X17, X23, X24, X29) dont les

(23)

valeurs d’efficacité sont comprises entre 0,637 et 0,821 et un sous-ensemble de 14 paramètres dont les valeurs d’efficacité se trouvent entre 0,355 et 0,599. Ainsi nous avons réussi à extraire un sous-ensemble de 5 paramètres de l’ensemble formé de 19 paramètres informatifs obtenu après la première étape du traitement. Ces 5 paramètres répondent aux exigences : avoir une forte corrélation avec les autres paramètres et être capables de distinguer les classes et les objets.

À partir de ce moment, la classification des objets sera menée sur la base des 5 paramètres informatifs et se caractérisera par l’espace à cinq dimensions dont les axes sont représentés par les paramètres cités.

Tableau 4. Paramètres informatifs

Codes des paramètres Noms des paramètres X16 Nombre de mots de la seconde classe

X17 Nombre de substantifs

X23 Nombre de prépositions

Х24 Nombre de conjonctions

Х29 Nombre de mots au cas régime

Maintenant, nous pouvons procéder à l’extraction des données sur les 5 paramètres informatifs des trois autres romans inclus dans le corpus de textes : Lancelot ou le Chevalier à la Charrette, Le Conte du Graal et Guillaume d’Angleterre.

5.4. L’estimation des coordonnées des étalons de classes a priori et des coordonnés des objets à attribuer

Le passage de l’objet réel qu’est le texte à son modèle mathématique consiste en la description de cet objet à l’aide d’un ensemble formé de paramètres pertinents pour le système de reconnaissance. Les descriptions de ces objets peuvent être représentées par des points, centres de gravité, dans l’espace paramétrique multidimensionnel. Dans la présente recherche, la description des objets attribués doit être fondée sur le vocabulaire du système qui inclut 5 paramètres informatifs.

(24)

La méthode de l’échantillonnage aléatoire a été appliquée pour déterminer les coordonnées des objets à attribuer et celles des étalons de classes. Ce type d’échantillonnage nous a permis d’analyser une quantité beaucoup moins élevée d’unités qu’on ne l’aurait dû lors d’une étude intégrale des textes, ce qui a considérablement diminué le temps du travail préliminaire.

L’échantillonnage aléatoire satisfait la théorie des probabilités, ce qui permet de calculer le degré de précision avec lequel les données de l’échantillonnage aléatoire caractérisent les propriétés des ensembles à analyser. La taille de l’échantillon n est obtenue à partir des matrices de données préliminaires sur la formule suivante :

, où , ,

est l’erreur type de la moyenne qui démontre quel pourcentage de l’échantillon elle concerne. Avec = 0,05 l’erreur type ne concerne pas plus de 5 % de résultat, la confiance est donc de 95 %.

Procédant à l’analyse des résultats obtenus, nous constatons que la taille de l’échantillon nécessaire varie considérablement pour les objets a priori et pour l’objet attribué. Par exemple, pour l’objet a priori Cligès, la taille minimale de l’échantillon du paramètre X16 est de 492 unités ( = 492), tandis que la taille minimale de l’échantillon du paramètre X23avec = 0,05 est de 669 unités. Ainsi, l’échantillonnage aléatoire de 669 phrases assurera la précision de 95 % pour le paramètre X23, en même temps que les valeurs des autres paramètres seront mesurées avec une précision redondante. Les tailles des échantillons de tous les objets seront calculées sur la base de la taille maximale.

Nous présentons pour exemple le tableau des statistiques de la répartition des paramètres pour l’objet à attribuer Guillaume d’Angleterre, où la valeur maximale est mise en gras.

Après le traitement de tout le corpus de données, les coordonnées des classes a priori et de l’objet attribué ont été soumises à une certaine correction. Les coordonnées corrigées de Guillaume d’Angleterre sont exposées dans le tableau 6.

(25)

Tableau 5. La taille de l’échantillon à précision relative pour l’objet attribué Guillaume d’Angleterre

Paramètres

X16 4,555 3,089 342

X17 2,71 2,038 376

X23 1,405 1,356 453

Х24 1,985 1,66 410

Х29 5,5 3,843 352

=664

Tableau 6. Les coordonnées de l’objet à attribuer Guillaume d’Angleterre avec = 0,05

Paramètres

Х16 4,801 3,273

453

Х17 2,881 2,121

Х23 1,547 1,414

Х24 2,040 1,818

Х29 5,435 3,891

La première étape de la procédure de vérification de l’hypothèse attributive est terminée ; selon l’ordre établi au début du paragraphe, nous avons procédé à la définition des paramètres informatifs et des coordonnées des classesa prioriet de l’objet à attribuer.

5.5. La procédure d’attribution

En fonction du plan auquel elle est appliquée, substantiel ou statistique, la méthode de reconnaissance de formes peut changer d’algorithme de reconnaissance ; celui-ci comprend une attribution déterministe ou probabiliste.

Sur le plan substantiel (ou déterministe) la procédure de reconnaissance consiste à déterminer si l’objet attribué appartient à une des classesa priori (dans notre cas il s’agit plutôt de l’appartenance de l’objet attribué à la

(26)

même classe que chacun des objets a priori). La prise de décision est basée sur la comparaison de l’information a posteriori que nous possédons à propos de l’objet à attribuer avec les étalons des objets a priori. La règle selon laquelle l’objet attribué est mis en correspondance avec une classe ou un objet a priori, s’appelle la règle de décision. Sur le plan statistique, la procédure comprend le choix entre les hypothèses, et ainsi la description de l’objet est considérée comme un résultat d’expériences en fonction desquelles il est nécessaire de préférer une des hypothèses d’attribution de l’objet à l’une des classes.

L’attribution faite en deux étapes permet de mettre l’objet attribué et les objets a priori en correspondance d’une manière plus précise et argumentée.

5.5.1. L’attribution déterministe

L’algorithme déterministe de reconnaissance détermine la ressemblance de l’objet attribué avec les objets a priori. En tant que fonction classifiant l’algorithme déterministe de l’attribution, nous avons appliqué le test de Student. Le seuil limite dut critère appliqué lors de ce test est de 1,96 avec un seuil de confiance égal à =0,05. Si pour le paramètre le seuil limite observé du t critèreest inférieur à 1,96, il est possible de parler, avec une probabilité statistique de 95 %, d’absence de différences statistiquement importantes entre les objets, et inversement, avec une valeur du t critère supérieure à 1,96, il est possible de dire que ces différences existent. Pour que l’objet attribué soit mis en corrélation avec les objets a priori, il faut que la valeur du t critère soit inférieure au seuil limite pour les cinq dimensions de l’espace de classification.

Il faut ajouter que, puisque la décision, selon la règle de décision formulée, est prise avec une probabilité de confiance de 0,95, et que la reconnaissance est effectuée dans l’espace de cinq paramètres quasi indépendants, la fiabilité statistique des résultats est très élevée. Dans le cas présent, avec cet espace paramétrique à cinq dimensions, le risque d’erreur est compris entre 0,05и 0,05⁵qu’il est possible de présenter sous la forme 3,125⋅10^-7≤ < 0,05, où la valeur réelle de tend à la limite gauche de l’intervalle qui fait à peu près trois milliardièmes.

La classification des objets (chaque texte étudié étant un objet) avec application de l’algorithme déterministe est une procédure itérative ; après

(27)

chaque itération la puissance et le contenu des classes se modifient et les coordonnées se recalculent. On applique la méthode des centres mobiles qui comprend l’amélioration successive de la répartition de l’ensemble initial en classes (quand il s’agit de plusieurs objets à attribuer) (Bouroche et Saporta, 1990, 51-53). Lors de la première étape, les objets sont groupés autour de centres , la classe faisant partie du centre si les objets dont elle est constituée sont plus proches du centre que de n’importe quel autre centre. On remplace chaque centre par le centre de gravité de sa classe : et on passe à la classification des objets autour des centres , c’est-à-dire, à l’itération.

Les étalons d’une classe avec une puissance d’objets pour chaque paramètre sur chaque itération successive sont calculés à partir des formules suivantes :

,

Ensuite, la procédure est répétée tant que la qualité de la classification ne s’améliore pas ; habituellement quelques itérations suffisent.

Dans le cadre de notre projet, l’algorithme déterministe s’est arrêté à l’itération zéro. Notons que, dans le cas qui nous intéresse, les classes d’objets correspondent aux objets uniques (l’objet à attribuer et les objetsa priori), et nous avons donc procédé à la comparaison de tous les objets entre eux, et non seulement de l’objet à attribuer Guillaume d’Angleterre avec les objets a priori. Cette comparaison a été menée afin de vérifier les résultats du travail de l’algorithme déterministe.

Nous pouvons constater que dans aucun cas présenté l’objet à attribuer ne manifeste de valeur du t critèreinférieure au seuil limite pour les cinq paramètres. Nous avons mené la même expérience pour les autres romans du corpus dont la paternité n’est pas discutée, avec le même résultat. Par conséquent, à l’issue de l’application de l’algorithme déterministe nous n’avons pas attribué l’objetGuillaume d’Angleterreet aucun lien étroit n’a été démontré avec des romans de Chrétien de Troyes. Pourtant, ces cinq

(28)

romans ne révèlent pas non plus de liens étroits entre eux, qui sont nécessaires pour les attribuer à la même classe d’objets.

Tableau 7. Valeurs du t critère de Student pour les objets a priori et l’objet à attribuer Guillaume d’Angleterre

Para- mètres

Cligès Guillaume T critère

N N t

Х16 5,633 4,096 669 4,801 3,273 453 4,824

Х17 3,409 2,597 669 2,88 2,121 453 4,499

Х23 1,871 1,73 669 1,547 1,414 453 3,870

Х24 2,446 2,035 669 2,039 1,818 453 4,004

Х29 6,050 4,553 669 5,434 3,891 453 3,070

Yvain Guillaume

Х16 5,199 3,678 676 4,801 3,273 453 2,335

Х17 2,957 2,256 676 2,88 2,121 453 0,662

Х23 1,586 1,556 676 1,547 1,414 453 0,477

Х24 2,511 1,998 676 2,039 1,818 453 4,662

Х29 5,701 4,220 676 5,434 3,891 453 1,336

Erec Guillaume

Х16 4,477 3,667 737 4,801 3,273 453 1,913

Х17 3,120 2,744 737 2,88 2,121 453 2,052

Х23 1,588 1,56 737 1,547 1,414 453 0,510

Х24 1,682 1,721 737 2,039 1,817 453 3,642

Х29 5,325 4,249 737 5,434 3,891 453 0,552

Lancelot Guillaume

Х16 4,944 3,625 736 4,801 3,273 453 0,845

Х17 2,627 2,208 736 2,88 2,121 453 2,225

Х23 1,471 1,444 736 1,547 1,414 453 0,952

Х24 2,305 1,888 736 2,039 1,817 453 2,678

Х29 5,095 4,075 736 5,434 3,891 453 1,721

Perceval Guillaume

Х16 5,967 4,174 686 4,801 3,273 453 6,765

Х17 3,516 2,711 686 2,880 2,121 453 5,390

Х23 1,927 1,746 686 1,547 1,414 453 4,549

Х24 2,516 1,999 686 2,039 1,817 453 4,713

Х29 6,612 5,091 686 5,434 3,891 453 5,825