M. P ETRUSZEWYCZ
Quelques exercices d’utilisation des critères de A. A. Markov
Mathématiques et sciences humaines, tome 66 (1979), p. 51-90
<http://www.numdam.org/item?id=MSH_1979__66__51_0>
© Centre d’analyse et de mathématiques sociales de l’EHESS, 1979, tous droits réservés.
L’accès aux archives de la revue « Mathématiques et sciences humaines » (http://
msh.revues.org/) implique l’accord avec les conditions générales d’utilisation (http://www.
numdam.org/conditions). Toute utilisation commerciale ou impression systématique est consti- tutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
QUELQUES
EXERCICES D’UTILISATION DES CRITERES DE A.A. MARKOVM. PETRUSZEWYCZ
La lecture de l’article
[1]
de A.A. Markov et la reconstitu- tion pas à pas de sadémarche,
nous ontsuggéré
d’utiliser lesparamètres
du modèle markovien comme instruments de recherche
linguistique.
Dans unpremier
temps aumoins,
nous avons décidé depoursuivre
nos recherchessur les textes mêmes en
langue
russequ’avait
utilisé Markov. Ce tra-vail eût
probablement
étédifférent,
fait parquelqu’un
pourqui
lalangue
russe aurait été à la foislangue
maternelle etpratique quoti-
dienne et en même temps le
sujet d’étude,
ce n’est pas notre cas.Mais avant d’effectuer ces
exercices,
il convient de direquelques
motsde la distinction
graphèmes/phonèmes.
Eneffet, Chomsky
et Miller ontécrit
[27] qu’il
était"peu
vraisemblable que le résultat[l’interpré-
tation de la différence entre
p , probabilité
d’avoir unevoyelle après
une
voyelle,
etpo, probabilité
d’avoir unevoyelle après
uneconsonne]
o
eût été sérieusement modifié si
l’analyse
avaitporté
sur lesphonèmes plutôt
que sur lesgraphèmes".
Il semble que cetteopinion
ne soit pasl’objet
d’un consensus et on a donc envie de voir cequi
en est réelle-ment, au moins pour des textes écrits en russe. Il est certain que le statisticien
qui
va, commeMarkov,
constituer les carrésélémentaires,
part
toujours
d’un texte matérialisé dans sonécriture,
que celle-ci utilisel’alphabet
de lalangue
ou unalphabet phonologique :
c’est lemême texte. Il ne
s’agit
absolument pas d’aborder l’étude de lalangue parlée.
(1)
Les référencesbibliographiques
se trouvent sous le titre BIBLIOGRAPHIEp.91-97
dans ce numéro.Il se pose par ailleurs un autre
problème :
iln’y
a pas detranscription phonologique
universelle. Nous avons utilisé pour le russe deuxsystèmes
de
transcription
. La seuledifficulté,
de notrepoint
devue,était
l’affec-tation du
yod :
entranscription phonologique
nous l’avons dans les deuxcas
compté
comme consonne. Voici les résultats mais auparavant,rappelons
le
procédé
de dénombrement et de calcul.T étant la
longueur
du texte engraphèmes,
il y a(T-1) couples, (T-2)
tri-plets,
etc. V étant le nombre degraphèmes vocaliques dénombrés,
v*désigne
les doublets commençant par une
voyelle
et inversement *vdésigne
les dou-blets finissant par un
graphème vocalique.
si le texte finit par un
graphème vocalique.
si le texte finit par un
graphème consonantique.
Il est facile de
généraliser
auxn-uplets, n
étant lalongueur
de laséquence
considérée.
Discours
poétique.
’a) graphèmes orthographiques :
’T = 1715
signes ;
nombre degraphèmes vocaliques :
740nombre de successions de
graphèmes vocaliques :
71b) transcription phonologique
comptant leyod
comme consonne :T = 1707
signes ;
nombre degraphèmes vocaliques :
698-
nombre de successions de
graphèmes vocaliques :
19(1)
Nous remercions vivement M. J.P. Sémonqui
aobligeamment
transcrit selonson
système [34]
les sixpremières strophes d’Evgenii Onegin ;
ainsi queMelle C.Prokhoroff
qui
atranscrit,
selon lesystème enseigné
par MmeFougeron
dans son cours de
Phonétique
russe pour la licence à Paris IV-Sorbonne,
desfragments
deKapitanskaja Docka.
un
fragment
de 1800signes.
a) graphèmes orthographiques :
T = 1800
signes ;
nombre degraphèmes vocaliques :
791nombre de successions de
graphèmes vocaliques :
103b) transcription phonologique
comptant leyod
comme consonne :T = 1800
signes ;
nombre degraphèmes vocaliques :
705’
nombre de successions de
graphèmes vocaliques :
36Il nous
paraît
que ces résultats nous autorisent àtravailler,
ainsi que le fitMarkov,
sur lesgraphèmes.
Bien entendu cette étude n’est valable réelle-ment que pour le russe et par ailleurs ce n’est
qu’un
coup de sonde et nonune étude
statistique ;
d’autres échantillonspourraient
donner des valeursplus
différentes mais nous pensons que dans le cadre d’une recherche detype markovien on peut, sans trop de
risque,
faire l’économie del’étape
de latranscription phonologique.
Nous pouvons maintenant formuler nos
hypothèses
etprésenter
aulecteur
quelques
exercices d’utilisation des critères de Markov : soit1+6
que nous
appelons
M en son honneurprécisément,
soitC m
le critère de lachaîne d’ordre 2.
I - DEUX EXEMPLES D’UTILISATION DES PARAMETRES MARKOVIENS.
Nous avons fait
l’hypothèse
que lesfréquences
des doublets outriplets
devoyelles pouvaient
caractériser un texte. Des considérations de deux ordresnous y ont
poussé.
Lespremières
sont d’ordrehistorique. Préparant
la 4èmeédition de son Cours de Calcul des
Probabilités,
Markovreproduit intégrale-
ment
[1].
Il yajoute
un deuxièmeexemple d’application
de sa théorie deschaînes au même domaine
d’application :
la succession des"voyelles"
et des"consonnes" dans un texte littéraire russe.
L’ampleur
de cette deuxièmeapplication,
100000lettres,
a sans doute sonorigine
dans lescritiques qu’il
a faites à Morozov et sous le coupdesquelles
il ne veut pas tomber lui-même. Mais nous renvoyons l’examen de ceproblème : longueur
du corpus - validité des résultats àplus
tard. Validité peut s’entendre de deuxfaçons :
soit ils’agit
de la "robustesse" du modèle de chaîne. Soit ils’agit
dela stabilité des
paramètres.
Si Markov était très satisfait du résultat obtenu dans l’étude des deux corpusAksakov,
nous le sommesbeaucoup
moinsde ceux que nous
présentons plus
loin. Cesprécisions données,
les considé-rations ci-dessus nous induisent à penser que Markov ne tenait pas pour seulement fortuit ou
simplement
commode son domained’application
et nousallons sur deux
exemples
essayer de montrer que la chaine markovienne peut être un instrument de recherche.I.1.
Opposition poésie/prose
chez Pu~kin.Notre
argumentation
est d’ordreprosodique
au sens traditionnel du terme.Nous n’essaierons pas de donner au lecteur une idée des rapports
complexes qu’entretiennent
lasémantique,
lerythme,
la scansion et la rime dans lapoésie
russe : le lecteur intéressé pourra se reporter aux ouvrages citésen
bibliographie [34]
et[38],
seul ouvragedidactique disponible
enfrançais
actuellement. Nous
simplifions
à l’extrême en disant que c’est une versifi- cationsyllabo-tonique
leplus
souventrimée,
"fondée sur l’alternancerégulière
dessyllabes
accentuées(fortes-
et dessyllabes
atones(faibles)...
Dans un vers
syllabo-tonique,
le nombre desvoyelles
est fixe par suite du nombre fixe dessyllabes -
le nombre des consonnes, par contre, n’est limité par aucun dessinmétrique",
ni par d’autresconsidérations,
au moins àl’époque
dePuskin.
en moyenne,
plus
devoyelles
dans un texte en prose que dans un texte envers(1) puisque
le prosateur ne compte pas lessyllabes
et donc aussiplus
de doublets de
voyelles.
Nous avons aussi faitl’hypothèse
que, l’assourdis-sement par les consonnes étant un trait
prosodique
russe, nous trouverionsplus
detriplets
de consonnes enpoésie qu’en
prose.Nous avons choisi de comparer
Evgenii Onegin [32]
au roman enprose du même auteur :
Kapitanskaja doéka (La
Fille duCapitaine) [33].
Nous avons
procédé,
ainsi que l’avait faitMarkov,
avec les mêmes conventions par relevés de dixlignes
sur dix colonnes formant les tableaux élémentaires de cent lettres. Forts du résultat obtenu par Markov sur les textesd’Aksakov prouvant la stabilité de ses
caractéristiques
et d’autre part ayant des raisons de mettre en doutel’opinion
troprépandue,
à savoirque la
statistique
n’aboutit à des résultats validesqu’en s’appuyant
surun
grand
nombre dedonnées,
nous avons, dans unpremier
temps faitquelques
essais sur des corpus courts. Nous avons choisi deux
fragments d’Evgenii Oneg2n,
tous deux d’unelongueur
de 5000lettres, plus précisément
nousfournissant 50 tableaux élémentaires. Le
premier
est lechapitre
I dupoème,
de la
strophe
I à lastrophe
XX 5e vers ; ledeuxième,
choisi auhasard, comprend
lesstrophes
XX à XXXVIII duchapitre
VI. Pour la prose nous avonschoisi au hasard le
chapitre
VII(jusqu’à
la page 190 de l’édition deréférence).
Nous avons ainsi pour la prosedépouillé
20000 lettres oupréci-
sément constitué 200 tableaux élémentaires que nous avons divisé en quatre tranches
égales
de 50 tableaux. Puis nous avons effectué pour toutes lespaires
decomparaisons possibles :
50 tableaux de prose/
50 tableaux de(1)M.
Fougeron nous ayant entendu émettre cettehypothèse
nous a fait remar-quer que, si elle était
vraie,
alors on devrait trouver des termes synonymescomme
rpa,n/ropo,n (grad/gorod) =
ville ouMna.nofi/M0J10,nOH (mladoj / molodoj) = jeune, plus fréquents
lespremiers
enpoésie qu’en
prose. Mais ainsiexprimée
cettehypothèse
est à la foisplus
forte et infinimentplus
subtile que celle que nous avons faite. Nous avonscependant
effectuéquel-
ques
décomptes -
àpartir
de[9].
Saluons au passage l’extraordinaire ins-trument de travail
qu’est
une concordance. Celle-ci estcomplète
aux deuxsens du terme : elle
analyse l’intégralité
de l’oeuvre dePukin ;
lesentrées sont
classiques
mais ellecite,
pourchaque entrée, chaque forme
fléchie au moins une fois en contexte, les autres occurrences étant données
sous forme d’index. Si rpa, et MJ1a,noM
apparaissent
effectivement rare-ment en prose (5 sur 37 - toutes formes fléchies confondues et 3 sur
179)
ce
qui
va dans notre sens il n’en est pas de même pour les formeslongues :
tpour MOJ1o,nofi en
particulier
on a unquasi équilibre 311/347.
Une étudesystématique pourrait
être intéressante mais ne nousappartient
pas.poésie,
les calculs markoviens. Nous avons alors constaté que si les chiffres absolus confirmaient notrehypothèse
par contre certainescaractéristiques
markoviennes ne
présentaient
pas la stabilité nécessaire. Nous avons attri- bué cette instabilité aux fluctuationsd’échantillonnage
et nous avonsdécidé de travailler sur des corpus
plus longs
c’est-à-dire sur 100 tableaux élémentaires depoésie
et 100 tableaux de prose. Pour cela nous avons aban- donné le deuxièmefragment d’Evgenii Qneg2n
etpoursuivi
la mise en tableauxdu
premier fragment jusqu’à
avoir 100 tableaux(cela correspond
au 9ème versde la
strophe
XXXVII duchapitre I).
Et nous avonscomparé
ce texte que nousdésignerons
par E a+b aux trois textes que nouspouvions
constituer pour la prose endésignant
par K 1 + 2 les 100premiers tableaux,
K 2 + 3 les ta-bleaux 51 à
150,
K 3 + 4 les 100 derniers tableaux. On nousobjectera
peut-être que nous
appelons
texte au sens ordinaire du termequelque
chosequi
commence en
plein
milieu d’un mot mais comme ils’agit
dedécomptes
de let-tres, et non de mots, nous ne pensons pas que ce "flottement"
initial,
etfinal
d’ailleurs, qui
n’estjamais
que dequelques
unités aitbeaucoup d’importance.
Nous
présenterons
d’abord les tableaux permettant de comparer les distributions desvoyelles,
des doublets devoyelles
et destriplets
deconsonnes.
TABLEAU I. Distributions
comparées
des centaines de lettres selon leur nombre devoyelles
dans lesquatre
textes dePuskin.
On voit très nettement que notre
hypothèse
estvérifiée,
les valeurs moyennes du nombre devoyelles
par centaines de lettres étant pour les trois textes enprose
supérieures
à la valeur moyenne(représentée classiquement
par la nota-tion
x) correspondant
à lapoésie.
Les trois distributions relatives à la prose se décalent vers lesgrandes
valeurs de la variable par rapport à lapoésie.Les
coefficientsd’asymétrie
sont dans l’ordre de haut en bas :-
0,192 ; - 0,008 ; - 0,061 et -0,282.
Les coefficientsd’ aplatissement
sont de même :
2,545 ; 2,886 ; 3,349
et3,363.
Les lecteurspréférant
lesreprésentations graphiques
se rapporteront auxFig.
1,2 et 3.TABLEAU II.
Distributions comparées
des centaines de lettres selon leur nombre de doublets devoyelles
dans lesquatre
textes dePusk2n.
Les coefficients
d’asymétrie
sont dans l’ordre de haut en bas :0,261 ;
,0,123 ; 0,015
et0,126.
Les coefficientsd’aplatissements
sont de même :2,503 ; 2,934 ; 2,863
et 2.592.Ici aussi les nombres
parlent directement,
de même que lesgraphiques correspondants : Fig. 1,2
et 3.Par contre l’examen des distributions
comparées
des centaines de lettresselon leur nombre de
triplets
de consonnes ne nous donne pas les résultatsattendus ;
cela nesignifie
pas que l’assourdissement par les consonnes nesoit pas un
procédé prosodique
russe maissimplement
que notre corpus nenous a pas
permis
de vérifier cettehypothèse.
Deplus
cet assourdissement par les consonnes n’étaitpeut-être
pas recherché parPuskin
dont on carac-térise la
langue
comme"fluide" ;
il le serabeaucoup plus
tard par les Futuristesqui
considéraient les groupements de consonnes comme caractéris-tiques
dugénie
de lalangue
russe.Figure
1. Distributions des centaines de lettres selon leur nombre devoyelles ;
en haut dans E a + b
en bas
dans
K 1 ~ 2 ,Figure
2. Distributions des centaines de lettres selon leur nombre devoyelles ;
en haut dans E a + b
en bas dans K 2 + 3 .
Figure
3. Distributions des centaines de lettres selon leur nombre devoyelles ;
en haut dans E a + b
en bas dans K 3 + 4 .
TABLEAU III.D2str2but2ons
comparées
des centaines de lettres selon leur nombre detriplets
de consonnes sans lesquatre
textes dePuskin
Les coefficients
d’asymétrie
sont de haut en bas :0,673 ; 0,529 ; 0,469
et0,504
Les coefficientsd’aplatissement
sont de même :3,290 ; 2,965 ; 2,892
et2,549.
Nous avons alors calculé les
caractéristiques
markoviennes pour nosquatre textes. Nous allons détailler les calculs pour le texte en
poésie
E a + b,
puis
nousprésenterons
un tableaucomparatif
des résultats pour les quatre textes.Longueur du texte en lettres relevées L = 10000 X = nombre de
voyelles :
4299~ = nombre de consonnes : 10000 - 4299 = 5701
x = nombre de doublets de
voyelles :
506z = nombre de consonnes
précédant
unevoyelle :
X - x = 4299 - 506 = 3793 Q = nombre de doublets de consonnes : y - Z = 5701 - 3793 = 1908Coefficient de
dispersion
de la chaîne0,29221 ;
la1 - à
valeur de ce coefficient que nous
appelons
M en l’honneur de Markov nousautorise à
adopter
le modèle de chaîne.Ici,
comme Markov l’avaitdéjà
montré cela
n’apporte
rien mais ce sera intéressant pour les autres textes.Nous essayons alors le modèle de chaîne
multiple.
x’ - nombre
detriplets
devoyelles :
56y’ =
nombre detriplets
de consonnes : 265Coefficient de
dispersion
de la chaînemultiple :
Le tableau IV
présente
l’ensemble des résultats obtenus pour les quatre textes ; pourchaque caractéristique
nous donnons la valeur décimale tron-quée.
Nous voyons que les valeurs de
pl (probabilité
de voirapparaître
unevoyelle après
unevoyelle)
pour les textes en prose sont toutessupérieures
à la valeur de
pl
pour lapoésie ;
ceci confirme bien notrehypothèse.
L’autre
probabilité d’apparition
de lavoyelle,
maisaprès
une consonne,po, présente
elle aussi des valeursplus
élevées dans les textes en prose que dans le roman en vers. Comme ces dernières sontsupérieures
auxpremières
cela entraîne le sens
négatif
des différences pour 8(delta grec) qui
établitune relation entre les deux
probabilités.
Quant au coefficient dedispersion
dont la valeur serait d’autant
plus proche
de l’unité quevoyelles
et conson-nes seraient
réparties
auhasard,
c’est-à-dire que leur succession n’obéirait pas à un modèle dechaîne,
ses valeurs nous permettent d’affirmer que tous les textes obéissent au modèle.Quant nous passons au
modèle
de chaînemultiple,
noshypothèses
ne sevérifient pas de
façon homogène.
Pourprobabilité
de transitionqui
faitpasser le
système qui
aprésenté
les états V et V aux moments t - 2 et t - 1 à l’état V à l’instant t, nous constatons que la valeur attachée au texte enprose K 3 + 4 est
supérieure
à celle de lapoésie.
Figure
4. Distributionscomparées
des centaines de lettres selonleur
nombre de doublets devoyelles ;
en haut dans E a + b
en bas dans K 1 + 2
Figure
5. Distributionscomparées
des centaines de lettres selon leur nombre de doublets devoyelles ;
en haut dans E a + b
en bas dans K 2 + 3 .
Figure
6. Distributionscomparées
des centaines de lettres selon leur nombre de doublets devoyelles ;
51en haut dans E a + b
en bas dans
K 1 + 2 .
8IV. VaZeurs des
caractéristiques
markoviennes pour lesquatre
textescomparés
de Puskin.L’événement VVV étant relativement rare il se
pourrait
que cette valeur soit due à une fluctuationd’échantillonnage,
que nos corpus n’aient pas été assezlongs
pour obtenir la stabilité.Aussi,
bienqu’elle
aille dans le sens de notrehypothèse
hésitons-nous à lui accor-der une
grande
valeur.Par ailleurs l’indice de
dispersion
de la chaînemultiple m (dont
nousavons redonné
l’expression ci-dessus)
bienqu’il
constitue un meilleurajus-
tement que
M,
cequi
estlogique
etsatisfaisant,
nous semble difficile àinterpréter
car nous observons un renversement du sens des valeurs par rap- port à celles deM,
dans lacomparaison prose/poésie.
Cependant encouragée
par les résultats obtenus dans lacomparaison
destextes en prose et
poétique
dePuskin
nous avons avancé unehypothèse plus
intuitive que laprécédente :
les doublets ettriplets
devoyelles
sontplus fréquents
dans lelangage
oral que dans lelangage
écrit d’un même auteurrusse. Cette
hypothèse reposait
audépart
sur le raisonnement suivant : toutorateur, même très
doué, lorsqu’il parle
sanspréparation
a tendance àrépéter
laconjonction
de coordinationqui
en russe est ungraphème
vocali-que. Pour constituer le corpus il nous a paru intéressant de tenter
l’expé-
rience sur un homme
réputé
pour ses écritsthéoriques
mais en même tempsgrand
tribun : Lénine. Il nous fut conseillé de retenir les années 1917- 1918 où nous trouverions à comparer unimportant
écritthéorique :
L’Etatet la Révolution à l’un ou l’autre des nombreux discours à peu
près
contem-porains
de sa rédaction. Concrètement le choix s’est avéré assez difficile à faire : il n’est pas aisé de trouver un texte de 10000 lettres de Léninequi
ne soitcoupé
de citationslongues
de K. Marx.Finalement,
ne pouvantcomme Yule l’a montré
[43]
réaliser un véritable échantillonaléatoire,
nousavons choisi un extrait du
paragraphe
trois : "Premièrephase
de la société communiste" duchapitre cinq :
"Baseséconomiques
dudépérissement
de l’Etat’[21].
Bienplus
difficile encore a été le choix d’un discourssusceptible
dereprésenter
lelangage parlé
de Lénine. Il nous a semblé que le texte inti- tuléRéponses
aux billetsqui
suit le discours fait par Lénine au"Congrés
extraordinaire des cheminots de toute le
Russie" [22]
et non le discours lui-même, pouvait
être considéré comme cequ’il
y avait deplus proche
du véri-table discours
oral.
Unrapide décompte
sur les quarantepremières lignes (dans
la mêmeédition)
des deux textes a confirmé notrehypothèse.
Si nousappelons
v’ = "H"(cyrillique) conj.
et v = tous les autresgraphèmes vocaliques
ycompris
"H" dans un mot on adans le texte écrit
dans le discours
Reste le
problème
de lapublication qui
a pu nécessiter des "retouches" maisnous pensons
qu’elles
ont étélégères
si on enjuge
par le critèrestylisti-
que introduit par G.U. Yule : la
longueur
desphrases.
Ce texte n’apermis
de constituer
qu’un
corpus de 5000 lettres.Yule
[43],
enprésence
de deux corpusqu’il
savait d’auteurs différentsmontre que certaines
caractéristiques
de lalongueur
desphrases
considéréecomme variable
statistique
sont différentes. Bien entendu ilprend
en compte, dans la mesure dupossible,
une certainehomogénéité
desujet ;
nous avons,comme lui "fait de notre mieux" sur ce
point.
Mais ilajoute
à l’unité desujet
"des circonstancesidentiques".
C’est sur cette conditionqui, préci- sément,
n’est pas réalisée dans notre cas que nous nous appuyons. Nous allons essayer de montrer que le même auteur,parlant approximativement
desmêmes
sujets,
mais dans des circonstances très différentes : discours nonpréparé -
rédaction d’un ouvragethéorique -
tient deux discoursprésentant
des
caractéristiques
permettant de lesdistinguer.
Nous
présentons
le Tableau V des distributionscomparées
de lalongueur
des
phrases,
mesurée par le nombre de mots dans les corpus considérés. Nousappelons Llales
5003premières
lettres consécutives du discours écrit etL lb
les 5121 suivantes
(leur
total couvre donc un peuplus
que les 10000 lettres relevées pour l’étude markoviennepuisqu’il
est de 10.124lettres). Lo corres-
pond
aux 5019premières
lettres consécutives du discoursparlé.
Il n’est pas surprenant de constater que des corpus d’environ 5000 lettres sedistinguent
par les caractères suivants :
Lo présente
laphrase
laplus
courte et enmême temps le
plus grand
nombre dephrases :
dont unelongueur
moyenne de20,16
mots ou en lettres116,72. L1
contient laphrase
laplus longue
etprésente
unelongueur
moyenne de35,72
mots ou en lettres227,40.
TABLEAU V .
Caractéristiques
de Yule déslongueurs
dephrase
dans les troistextes étudiés.
T. T.
longueur
moyennelongueur
de laphrase
médiane(en mots)
longueur
modaleQI (longueur
enmots)
~3 (longueur
enmots)
(longueur
enmots)
D3 (longueur
enmots)
Ces résultats nous autorisent à considérer les deux discours comme
"différents".
Les tableaux
élémentaires,
50 pourchaque
corpus, nous ontpermis
d’établirles distributions
comparées
des centaines de lettres selon leur nombre devoyelles
ou de doublets devoyelles.
TABLEAU VI. Distributions
comparées
des centaines de lettres selon leur nombre devoyelles
dans les trois textes de Lénine.Les coefficients
d’asymétrie
sont, de haut enbas, respectivement : - 0,722 ;
-
0,221 ; - 0,275.
Les coefficientsd’aplatissement
sont de même :4,914 ; 2,825 ; 2,600.
On voit aisément que notre
hypothèse
se vérifie : d la valeur moyenne dunombre de
voyelles
étantplus
élevée dans le discours que dans les deux tex- tes(ici rappelons
que nous sommes revenus à des corpuségaux
ou du moinsnous ayant
permis
d’établir pour chacun 50 tableauxélémentaires).
On peut se reporter auxFig.
7 et 8 pour lesgraphiques correspondants.
TABLEAU VII. Distributions centaines de lettres se Zon
nombre de doublets de
voyel3es
dans Zes trois de Lénine.L~s coefficients
d’asymétrie
sont de haut enbas, respectivement : 0,125 ;
0,749 ;
Les coefficientsd’aplatissement
sont de même :1,789 ;
3,506 ; 1,900.
TABLEAU VIII. Distributions
comparées
de lalongueur
desphrases
mesurée en. mots dans
Lo 3 Lia
etL1&
8 -
- - -- --
1 - 1 , 1 .- .. - .. -. - .- -..m .
hypothèse
bien que les écarts observés entre les valeurs moyennes du nombre des doublets soient moins nets que ceux observés dans les distributions desvoyelles ;
ceci est visible aussi sur lesFig. 9
et 10correspondant
à ces distributions. Mais ici aussi il nous faut nous montrerprudents
car nous n’avons réalisé que deuxcomparaisons
et sur des corpus relativement courts.Après
cela nous avons effectué pour chacun des corpus lesdécomptes
directs permettant de calculer les
caractéristiques
markoviennes et enparti-
culier de connaître les valeurs du coefficient de
dispersion
pour nous assu-rer que nous n’étions pas dans un cas
d’approximation
par la loi normale.Pour le
corpus L : longueur
du texte en lettres relevées : 50000
X =z nombre de
voyelles :
2236y w nombre de consonnes : 5000 - 2236 = 2764
x ~= nombre de doublets de
voyelles :
349TABLEAU IX. Les
caractéristiques
markoviennes des trois textes de Lénine.Figure
7. Distributionscomparées
des centainesde
lettres selonleur nombre de
voyelles ;
en haut dans
L - discours
20132013201320132013201320132013201320132013 o 20132013201320132013201320132013
en bas dans
L la =
rédaction . °Figure
8. Distributions comnarées des centaines de lettres selon leur nombre devoyelles ;
pen haut dans L = discours
0 en bas dans
L lb =
rédaction.Figure
9. Distributionscomparées
des centaines-de lettres selonleur
nombre de doublets devoyelles ; ;~
en haut dans L = discours
0
en bas dans rédaction . °
Figure
10. Distributionscomparées
des centaines de lettres selonleur nombre de doublets de
voyelles ;
.
en haut dans
L =
o discoursen bas dans
L lb =
rédaction. °nombre de
triplets
devoyelles :
x’ - 39nombre de
triplets
de consonnes :y’ =
152On verra les valeurs des
caractéristiques
des autres corpus dans le Tableau IX.Dans le cas de la
comparaison
tentée le modèle de chaînesimple
nousdonne des résultats satisfaisants et cette fois-ci
pll
confirme aussi notrehypothèse
mais par contre e etC m
ne sont pas stabilisés.II.I. UN AUTRE EXERCICE : COMPARAISON
POESIE/PROSE
ENTRE UN AUTEURCLASSIQUE
A.S.
PU~KIN
ET UN AUTEUR FUTURISTE V.V. HLEBNIKOV.Nous ne pouvons donner ici - ce serait à la fois hors de notre
compétence
et de notre
sujet -
un aperçu de lapoétique
des Futuristes. Nous renvoyons le lecteur aux ouvragesqui
en traitent :[19], [20], [26], [35]
parexemple.
Ce