R ENDICONTI
del
S EMINARIO M ATEMATICO
della
U NIVERSITÀ DI P ADOVA
C. M INNAJA
L. P ACCAGNELLA
Variazioni dell’entropia linguistica dell’italiano scritto e calcolo di un’entropia fonematica
Rendiconti del Seminario Matematico della Università di Padova, tome 57 (1977), p. 247-265
<http://www.numdam.org/item?id=RSMUP_1977__57__247_0>
© Rendiconti del Seminario Matematico della Università di Padova, 1977, tous droits réservés.
L’accès aux archives de la revue « Rendiconti del Seminario Matematico della Università di Padova » (http://rendiconti.math.unipd.it/) implique l’accord avec les conditions générales d’utilisation (http://www.numdam.org/conditions).
Toute utilisation commerciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit conte- nir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
dell’entropia linguistica
e
calcolo di un’entropia fonematica
C. MINNAJA - L.
PACCAGNELLA (*)
g
1. -Introduzione.
L’idea del calcolo
dell’entropia
di un testolinguistico
ègià
vec-chia di almeno un
quarto
di secolo([1] , [2]).
Il calcolo effettivo è stato effettuato per alcunelingue (vd.,
ad es.[3]),
sulla base di tabelle difrequenza
deigrafemi
elaborate per alcunelingue
europee.È
ben notal’importanza
che tali studi rivestono nella teoria mate- matica dellecomunicazioni ;
inparticolare,
per effettuare prove diintelligibilità
di unmessaggio,
si è ricorsi a modelli disorgente
dotati della
proprietà
diMarkov,
e simulabili mediante un elabo- ratore elettronico([4]).
È
invecepiù
recente l’ideaproposta
daingegneri
elinguisti
diconsiderare la
lingua
come un sistemaisolato,
e diapplicare
a talesistema le considerazioni
proprie dell’entropia (vd.,
ad es.[5],
a cuiè annessa
un’ampia bibliografia).
Laproposta
è stata formulata in maniera assaidubitativa,
ancheperchè,
nel caso preso sia pur super- ficialmente in considerazione in[5], parrebbe
che l’evoluzione diuna
lingua
neltempo portasse
ad una diminuzione dientropia.
Evidentemente
l’entropia
calcolata a livello digrafemi
varia aseconda del testo che si
considera,
ma tale variazione è in genere(*)
Indirizzodegli
AA. : Istituto di MatematicaApplicata,
Università, Padova.Lavoro
eseguito
mentre L.Paccagnella godeva
di una borsa di studio del CNR, Bando n.201/1/57
del28/5/75.
piuttosto
limitata e decresce con lalunghezza
del testo scelto. L’en-tropia
calcolata a livello di fonemi varia fortemente a seconda della trascrizione fonematica scelta. Entrambi itipi
di calcolo sonoutili,
a seconda se si
vogliano inquadrare
in uno studio per un simula-tore di una
sorgente
markoviana o per un sintetizzatore della voce umana([6] , [7 ] ) .
Nel
presente
lavoro vienedapprima
calcolatal’entropia
diprimo
ordine su due testi
giornalistici italiani,
a livellografematico,
e ilrisultato viene confrontato con
quelli
di[3],
per una verificasperi-
mentale
dell’ipotesi
espressa in[5].
Vienepoi
calcolatal’entropia degli
stessitesti,
ma con alfabetipiù ampi,
comeproposta
per mo- delli disorgente
markovianapiù adeguati
allalingua
italiana.Successivamente viene calcolata
l’entropia
diprimo
ordine alivello
fonematico,
e infine vieneproposta un’interpretazione
diversadi un
possibile
calcolodell’entropia
a livello diparole.
§
2. -Calcolo dell’entropia sull’alfabeto
base.La classica formula di Shannon
fornisce
l’entropia
calcolata su un insieme X disimboli x,
sulquale
è stata introdotta una funzione di
probabilità
p . I risultati trovati da Manfrino([3])
perH1
sono ricavati dall’analisi di tretesti,
cia-scuno di 10.000 lettere dell’alfabeto italiano. I tre testi erano
rispet-
tivamente di carattere
scientifico,
storico egiornalistico,
scrittirispettivamente
nel1955,
1940 e 1958.L’entropia
media risultanteera di
3,9433 bit/lettera.
La nostra analisi si
esprime
in un confronto tra due testigiorna- listici,
uno dipolitica
interna e uno dipolitica
estera. Entrambi ipezzi
sono di 10.000lettere, prescindendo
dal fatto chequeste
siano soltanto le 21 lettere dell’alfabeto italiano classico.
Compaiono
infatti anche cifre arabe e romane
(raggruppate
in un unicoelemento)
e lettere di altri alfabeti.
Le occorrenze e le relative
entropie
sonoriportate
nella tabella I.Il testo no 1 è preso dall’articolo di fondo del
quotidiano
« La Re-pubblica »
del24/3/1976,
pagg. 1 e3,
dal titolo « Lalunga
nottedella
DC » ;
; esso si compone di dueparti,
a firmarispettivamente
TABELLA I
di F. De Luca e G. Valentini. Il testo nO 2 è preso dalla rubrica
« Affari esteri » del settimanale «Panorama » del
23/3/1976 ;
esso sicompone di due
parti,
una intitolata « Distensioneproibita »
a firmadi M.
Conti,
l’altra(fino
alcompletamento
delle 10.000lettere)
intitolata « Se il rosso vince » a firma di S. Parone. In entrambi i testi non sono stati considerati nè titoli nè sottotitoli. In
appendice,
nelle tabelle
IA
eIIA
sonoriportate
le occorrenze suddivise persingole migliaia
dilettere ;
ad esse si riferiscono i duegruppi
digrafici
annessi.Questi
dimostrano come siano fortemente differen- ziate le occorrenze in ciascunmigliaio
di lettere.Si
può
notare che lesingole entropie
per i tre testi calcolate in[3]
eranoparecchio
simili traloro, rispettivamente : 3,9453 ; 3,9395 ; 3,9453.
Invece laprima
metà della tabella I forniscegià 3,9693,
e la seconda metà addirittura
4,0282.
Perquanto
l’estensione dei testi in esame siarelativa,
tali differenzepotrebbero già portare
unsupporto
alla tesi che lostile,
almenoquello giornalistico,
in 18 annisi è evoluto verso una
maggiore entropia.
Inparticolare
è da notarela differenziazione relativamente forte tra
l’entropia
dei due testi attuali entrambigiornalistici,
uno dipolitica
interna e l’altro dipolitica estera, superiore
di circa dieci volte alle differenzeregistrate
tra i testi di
[3],
che pure erano ditipo piuttosto
differente tra loro.9
3. -Ampliamenti
dell’alfabeto.I calcoli effettuati per la tabella I tendevano a raffrontare le
frequenze
delle varie lettere con i testi diqualche
decennio fa.Qua-
lora si
verificassero,
con l’evolversi dellalingua, significativi sposta-
menti di tali
frequenze, potrebbe
essere utile modificare il codicetelegrafico
in vista di unamaggiore
economia’ del costo di trasmis- sione.Se aumentiamo il numero
degli
elementi dell’alfabeto X l’en-tropia
ingenerale
crescerà. Unampliamento
abbastanza naturale èquello
di considerare anche isegni
diinterpunzione.
Nel testo no 1sono stati trovati 12 diversi
segni
diinterpunzione,
che hannoportato
il totale del corpus a 10.330
elementi ;
nel testo no 2 ne sono statitrovati
14,
per un totale di 10.393 elementi. Ciò haportato
allatabella
II,
nellaquale
lefrequenze
sono staterapportate
a 10.000.Si noti come sia sempre
maggiore l’entropia
del testo no2,
perquanto
la differenzapercentuale
restipressochè
costante.Questo ampliamento
dell’alfabetocomporta però
alcune diffi- coltà.Infatti,
adottando un codicebinario,
se l’alfabeto ècomposto
da n
elementi, bisogna
usare k cifre perdistinguere
unelemento,
dove k è
legato
ad n dalla relazioneTABELLA II
ed in
questo
caso avremmogià bisogno
di 6cifre,
che si adatte- rebbero ad alfabeti con un numero di elementi compreso tra 33 e 64.Ancora
maggiore
è tuttavial’entropia
di un testo scrittoquando
si considerino diverse le maiuscole dalle minuscole. Nella nostra analisi sono state considerate mainscole soltanto
quelle
lettere maiu- scole che noncomparivano
in inizio difrase,
inquanto
una maiu-scola
dopo
unpunto
è chiaramente ridondante. Ciò haportato
per il testo no 1 ad un alfabeto di 40 simboli(22 minuscole, cifre,
17maiuscole)
e per il testo no 2 ad un alfabeto di 46 simboli(25 minuscole, cifre,
20maiuscole).
Tali numeri sono ovviamentelegati
al corpus ; in linea
generale
si dovrebberoprevedere
almeno 53 sim- boli(26 minuscole,
26maiuscole, cifre).
Si noti che nel testo no 2 alcune letterecompaiono più frequentemente
nella forma maiuscola che nellaminuscola,
il che mostra come lapolitica
estera affidi unadiscreta
parte
della sua informazione ai nomipropri.
Infatti le maiu- scole sono 122 nel testo no 1 e 146 nel testo no 2.L’entropia totale,
considerando
maiuscole,
minuscole ecifre,
senza consideraregli
altri
segni tipografici,
è 4.0136 per ilprimo
testo e 4.1143 per il secondo.Un ulteriore
ampliamento dell’alfabeto, comprendente
maiu-scole, minuscole, cifre, segni
diinterpunzione porta
ad un codicea 7
elementi,
inquanto
è daprevedere
che l’alfabeto sia di 53 + + 14 = 67 simboli. Le tabelle III e IVportano rispettivamente
leoccorrenze di tutti
questi
elementi e lerispettive entropie, già
calcolate
rapportate
a10.000,
per il testo no 1 e per il testo no 2(*).
Potremmo considerare che
questo ampliamento
dell’alfabeto è il massimo effettivamentesignificativo,
a meno che non sivoglia distinguere
una vocale scritta con l’accento da una senzaaccento,
oppure una cifra
dall’altra,
il che è essenziale dalpunto
di vistadell’informazione,
ma menoimportante
dalpunto
di vista dello stilelinguistico.
Un discorso aparte
meriterebbe lospazio
comesegno
tipografico.
(*) Il calcolo relativo a queste tabelle è stato
eseguito
da G. Zillie F.
Degan
sul calcolatore Olivetti 652.TABELLA III
TABELLA IV
§
4. -Entropia
dellalingua parlata.
Le
percentuali
dei fonemi calcolate in[8]
cipermettono,
sempre con l’uso della formula di Shannon
di calcolare anche
l’entropia
deisingoli
fonemi equindi
dellalingua parlata.
Usiamoqui
lo stesso testo analizzato in[8] (la « Veglia
d’armi » di
Diego Fabbri),
e la stessa trascrizione fonetica usata in[8] ;
tale trascrizione è moltoprecisa,
nonostante non siatroppo
convincente la motivazione per cui i fonemi z e z’ vengono esclusi
dall’opposizione
«geminata : semplice
». Il fatto che lospettro
acu-stico
presenti
anche per z e z’semplici l’aspetto
di una consonantelunga
nonautorizza,
a nostrogiudizio,
a dichiarare trascurabile taleopposizione.
Sono invece molto convincenti i motivi per iquali
èstato scelto tale testo come
esempio
dilingua parlata :
si tratta diun lavoro
teatrale, quindi colloquiale,
conargomenti
di varianatura,
per
quanto
sempre riferibile ad unlinguaggio
di un ceto medio-colto. Il testo conta 18.970
parole
che sono state trascritte in 83.098 fonemi. La tabella Vriporta
i valori di H da noi ricavati e, percomodità,
anche lefrequenze rapportate
a 10.000 come da[8].
I fonemi distinti sono
50,
ilche,
dalpunto
di vistatecnico,
ciporterebbe
ad un codice a 6 cifre.Come si
vede, l’entropia
calcolata sui fonemi è notevolmentesuperiore
aquella
calcolata suigrafemi,
tuttavia non cossuperiore quanto potrebbe apparire
considerando solo igrafemi registrati
da
[3].
§
5. -Successivi
livelli dientropia.
Per uno studio
più
avanzato sipuò
calcolarel’entropia
condi-zionata di livello r cos definita
TABELLA V
dove
pbx(y)
è laprobabilità di y
condizionata dalgruppo bx,
for-mato da r-1
lettere,
cheprecede y .
Le
g2
e.H3
per igrafemi
dellalingua
italiana sonogià
statecalcolate in
[3].
Per i fonemi nulla finora è statocalcolato,
perquanto
per il calcolo di.H2 potrebbe
servire dispunto
la tabella II di[4],
nonostante che la trascrizione sia meno fine diquella
usatain
[8],
pur riferendosi allo stesso testo.È
interessante il calcolodell’entropia
a livello diparole.
Perquesto
serve una valutazionepiuttosto precisa
dellalunghezza
mediadelle
parole
dellalingua
inquestione.
A livellografematico
la lun-ghezza
mediariportata
in[3]
è di5,20 lettere/parola ;
nei testi no 1e no 2
oggetto
delpresente
studio leparole
erano sempre1911,
ilche conduce ad una
lunghezza
media di5,23 lettere/parola.
A livellodi fonemi il calcolo sui dati di
[8]
ci conduce a4,380 fonemi/parola.
Resta
aperto
ilproblema
del calcolodell’entropia
a livello diparole
per un numerosignificativo
di testi di varieepoche,
perpoter
verificare una variazione di
entropia
con iltempo.
Sipotrebbe
anche definire un vocabolario di concetti base da assumere come
alfabeto : nella
lingua
italiana di uso comune non sonopiù
di 700-800,
nonostante che i lemmi siano moltemigliaia.
In base a talealfabeto si
potrebbero
calcolareentropie
di testi scritti eparlati,
rilevando cos con
maggior rigore somiglianze
e differenze di stilee di contenuto.
TABELLA IA
TABELLA IIA
BIBLIOGRAFIA
[1] C. E. SHANNON, Prediction and
Entropy of
PrintedEnglish,
Bell S.T.J., 1951, XXX, pp. 50-64.[2]
G. A. BARNARD, Statistical Calculationof
WordEntropies for
Four-Western
Languages,
I.R.E. Trans. InformationTheory,
1955, IT-I, p. 49.[3]
R. MANFRINO,L’entropia
dellalingua
italiana ed il suo calcolo, « Altafrequenza »,
1960, XXIX, pp. 4-29.[4]
G. B. DEBIASI - G. A. VALLI,Sorgenti
dimessaggi
per prove di intelli-gibilità
dellaparola,
Mem. Acc. Pat. Sc. Lett. Arti, 1968, LXXX, pp. 293-314.[5]
E. A. AFENDRAS - N. S. TZANNES - J. G. TRÉPANIER, Distance, Variation andChange
inPhonology :
StochasticAspects,
Folialinguistica,
1973, 6, pp. 1-27.[6] G. B. DEBIASI - G. DE POLI - G. A. MIAN - C. MILDONIAN - C. OF- FELLI, Italian
speech synthesis from
unrestricted textfor
an automaticanswerback
system,
Proc. 8th Int.Congr.
Acoustics, Londra, 1974, p. 296.[7]
G. B. DEBIASI - G. DE POLI - G. A. MIAN - C. OFFELLI, Vocedagli
elaboratori :prospettive di sviluppo
e realtà di unaapplicazione,
Atti 3°
Convegno
di Cibernetica e Biofisica, S. Marino, 1974.[8] R. BUSA - C. CROATTO-MARTINOLLI - L. CROATTO - C. TAGLIAVINI - A. ZAMPOLLI, Una ricerca statistica sulla
composizione fonotogica
dellalingua
italianaparlata eseguita
con un sistema IBM a schedeperfo-
rate, Proc. 12th Int.
Speech
& VoiceTherapy
Conference, Padua, 1963, pp. 542-562.Manoscritto pervenuto in redazione il 6