• Aucun résultat trouvé

Reconnaissance de l'auteur d'un texte d'après les caractères utilisés

N/A
N/A
Protected

Academic year: 2022

Partager "Reconnaissance de l'auteur d'un texte d'après les caractères utilisés"

Copied!
3
0
0

Texte intégral

(1)

L ES CAHIERS DE L ’ ANALYSE DES DONNÉES

M. A BI F ARAH

Reconnaissance de l’auteur d’un texte d’après les caractères utilisés

Les cahiers de l’analyse des données, tome 13, no1 (1988), p. 95-96

<http://www.numdam.org/item?id=CAD_1988__13_1_95_0>

© Les cahiers de l’analyse des données, Dunod, 1988, tous droits réservés.

L’accès aux archives de la revue « Les cahiers de l’analyse des don- nées » implique l’accord avec les conditions générales d’utilisation (http:

//www.numdam.org/conditions). Toute utilisation commerciale ou impres- sion systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.

Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques

http://www.numdam.org/

(2)

Les Cahiers de l'Analyse des Données Vol XIII 1988 - n°I - pp. 95-96

RECONNAISSANCE DE L'AUTEUR D'UN TEXTE D'APRÈS LES CARACTÈRES UTILISÉS

[LETTRES]

M. ABI FARAH*

L'objet de la présente note est seulement de rendre compte de recherches en cours sur le thème qu'indique le titre.

1 Rappel de résultats antérieurs

Etienne BRUNET est, à notre connaissance, le premier auteur à avoir signalé qu'on obtenait des résultats interprétables, quant au genre littéraire, en soumettant à l'analyse des correspondances un tableau de contingence croisant un ensemble de textes (ou de groupes de textes) avec l'ensemble des signes typographiques employés (ou une partie de ceux-ci, par exemple les signes de ponctuation). Anis ABI FARAH a fait de semblables recherches sur des textes en langue arabe. On peut légitimement s'étonner du succès de ces analyses dont l'interprétation est assurément délicate: É. Brunet a montré que les mots les plus fréquents n'étaient pas seuls en cause, car les résultats subsistent même si ces mots sont élimininés du bilan. Il faut donc conclure que les œuvres sont caractérisées par les morphèmes (désinences, préfixes, suffixes...) dont l'usage massif détermine le profil d'utilisation des lettres.

2 Compte-rendu de nos expériences

Marcel Proust et Marcel Aymé ont fait l'objet d'un premier essai, avec 4 textes pour chaque auteur, pris à des endroits différents, respectivement dans Un amour de Swann et dans Derrière chez Martin: sur l'axe 1 la séparation est parfaite, comme le montre le schéma ci-dessous.

Aym4Aym2AymlAym3 + Pro4—Pro2—Pro3 Prol Un essai similaire, portant sur des textes courts (environ 2000 caractères)

d'Emile Zola et Romain Gary a produit des résultats aussi nets.

Gar3 Gar4GarlGar2 + Zol4Zol3Zoll Zol2

(*) 1 Rue des églantines, 95320, Saint-Leu la Forêt.

Les cahiers de l'analyse des données - 0339-3097/88/0195 2/$ 2.20/ © Gauthier-Villars

(3)

96 M. ABI FARAH

Nous avons ensuite abordé l'étude simultanée de plus de deux auteurs avec Baudelaire, Bergson, De Gaulle, La Fontaine, Rousseau et Voltaire représentés chacun par 4 textes de quelque 2000 caractères (sauf pour Baudelaire, 3 textes).

L'analyse a été faite d'une part en dénombrant seulement les lettres, et d'autre part en dénombrant lettres et signes de ponctuation. Nous choisissons de présenter ici le plan (1,2) issu de l'analyse de la corresopondance croisant des textes de 4000 caractères, issus de huit auteurs, avec l'ensemble des caractères (lettres et ponctuations). Même si l'interprétation en terme de morphèmes reste à faire, on ne peut nier que la discrimination obtenue est prometteuse.

a x e 2 Hgl DG2 Hg2

Bd4 Baudelaire

Bd2 Bd3

Victor Hugo Hg4

Hg3 Vil Bdl

VI4

Voltaire V12

V13- LF2

La Fontaine LF3 LF1

LF4

De Gaulle DG4 DG1

DG3

Bergson Bg2 Bg4 Bgl

Bg3

Psi axel

Rs3Rs4 Rs2 Rousseau Ps2 Rsl

Pascal

Ps4 Ps3

Références bibliographiques

Etienne Brunet: Le Vocabulaire français de 1789 à nos jours; 1824 pp., Slatkine, Genève-Paris, 1981; résumé par l'auteur dans: L'analisi délie frequenze, problemi di lessicologia; A cura di M. Fattori e M. Bianchi; Lessico

Intelettuale Europeo XXVII; Centro di studio del CNR; Edizioni dell'Ateneo;

Roma, 1982; brièvement analysé dans CAD, Vol VIII, n°l, pp. 123-125,1983.

Anis Abi Farah: La reconnaissance automatique des auteurs inconnus des textes arabes; Thèse de doctorat ès-sciences; Université Pierre et Marie Curie;

Paris, 1985.

Références

Documents relatifs

4ème trimestre 2015 Spécial LE PETIT TRAIN des Graulhétois 1895 - 1935 Rouyre Gabriel Manavit Henry Chabbal Jean. AVANT PROPOS

• n’arrête pas immédiatement d’écrire lorsque la personne chargée de la surveillance de l’examen le lui demande au terme de la période allouée pour faire l’examen ou

C'est par conséquent au tour de Jordane de concevoir, comme personnage, la littérature comme une manière de respecter la réalité dont on s'inspire pour créer: “[Jordane] me

Lemaire Françoise Lebreton Jacques - La vie est belle à en crever Biographie Lépine Jean-François Sutto Janine : Vivre avec le destin Biographie Lescop Marguerite

De façon spécifique, l’étude vise à : (i) détecter les variables clés permettant d’expliquer les fluctuations du taux de change effectif réel par rapport à son

Les conditions semblent réunies pour qu’il y ait opus : un nom d’auteur (pseudonyme), la singularité d’une expérience et d’un point de vue marqués par un style, une

23 Je peux formuler à présent quelques hypothèses sur la question de l’auteur et son rapport aux textes littéraires en effectuant une synthèse des réflexions précédentes : (1)

Sandra qui en a assez que Greg lui tienne la main en l’air, elle la pose sur sa propre cuisse sans la lâcher la main de Greg et elle referme les cuisses, ce qui fait que Greg a