Applicazione all’oggetto di studio: corpora monolingui quantitativi

1 Impostazione generale della ricerca

1.6 Teoria e pratica dei corpora per lo studio dei calchi sintattici

1.6.1.2 Applicazione all’oggetto di studio: corpora monolingui quantitativi

Dopo aver descritto le caratteristiche della categoria prototipo e aver messo in luce la sua utilità per la descrizione dei corpora impiegati, è ora di approfondire la caratterizzazione tipologica dei corpora. I criteri per la creazione dei corpora linguistici sono stati ampiamente studiati sia nel campo della linguistica (Engwall 1994) sia in quello della traduzione. Per questa sezione, particolarmente utili sono stati gli studi di Lynne Bowker riguardanti i corpora e la traduttologia (2000; 2001).

In questo campo, si distinguono principalmente quattro tipi diversi di corpora: quelli comparabili monolingui, quelli bilingui, quelli comparabili bi o multilingui e quelli monolingui. I corpora comparabili monolingui (Baker 1995) sono costituiti da due gruppi di testi riguardanti la stessa tematica: uno è costituito da testi tradotti nella lingua X e l’altro da testi scritti direttamente nella stessa lingua X. Questo tipo di corpus è servito a mettere in luce alcune caratteristiche universali dei testi tradotti (Baker 1995; Laviosa 1998a; 1998b) descritti nel § 1.5.1.3.1. William Frawley ha definito questa varietà tradotta con il termine terzo codice, (avente quindi caratteristiche diverse da quelle della lingua di partenza o della lingua di arrivo) appunto per metterne in luce la specificità (1984). Altri studi hanno dimostrato che questo carattere dei testi tradotti non è stato riscontrato solo in inglese, ma anche in ebraico, in danese e in olandese (Toury 1980; Vanderauwera 1985; Malmkjær 1998).

È per questo che si parla di ‘caratteri universali’ del terzo codice. Come avviene in altre lingue dunque, un’eccessiva vicinanza all’uso corretto, standard della lingua potrebbe quindi caratterizzare anche i testi tradotti in italiano da professionisti. In tal caso, proprio questa caratteristica renderebbe l’uso dei corpora comparabili monolingui, inadatto alla nostra ricerca: infatti, per le ragioni che saranno chiarite nel § 1.7, è necessario cercare un nesso tra le strutture analizzate in standard e le stesse strutture appartenenti al modello alloglotto, non tra quest’ultimo e l’italiano delle traduzioni³¹.

Neanche i corpora bilingui si sono rivelati utili per questa ricerca. Questi ultimi sono costituiti da due corpora allineati: un originale in lingua straniera e dalla sua traduzione in italiano. Il fatto stesso che si tratti di una traduzione renderebbe il corpus inutilizzabile per le ragioni sopra esposte³².

Per noi, cominciano già ad essere più pertinenti invece i corpora comparabili bilingui o multilingui (Peters e Picchi 1997). Costituiti da due insiemi di testi non tradotti aventi caratteristiche simili (ma lingue diverse), tali corpora sono estremamente utili per la ricerca del lessico o per lo studio delle collocazioni. Eppure la necessità di disporre di testi esposti agli influssi stranieri e quindi contenenti (almeno potenzialmente) delle traduzioni invisibili ha spinto a escludere tali corpora.

Nel nostro lavoro, si sono dunque prediletti i corpora monolingui. Lynne Bowker distingue tra corpora monolingui qualitativi e analoghi corpora quantitativi. I primi sono costituiti da testi che per lasso di tempo considerato, luogo, tematica e tipo di testo ben si adattano alla ricerca che è stata effettuata. I secondi sono composti da una grande quantità di testi non necessariamente attinenti alla tematica in questione. Bowker indica che, per un corpus qualitativo, 5.000 parole sono sufficienti, mentre un corpus quantitativo raggiungerà le 200.000 parole circa (Bowker 2001). Ma Bowker è interessata alla costituzione di corpora da utilizzare per lo studio della terminologia e delle espressioni idiomatiche. Il nostro approccio è invece inverso. Le espressioni sintattiche la cui diffusione si suppone molto ridotta sono già state identificate, ma nella stragrande maggioranza dei casi non è stata effettuata un’analisi sintattica approfondita, né tanto meno una ricerca mediante corpora. Dato che l'ipotesi principale di questo lavoro verte sull’importanza di un approccio integrato, mentre quella

31 Ciò tuttavia, non ci ha impedito di ricorrere a corpora e a studi di italiano delle traduzioni per l’identificazione dei presunti calchi sintattici.

32 Da un punto di vista schiettamente economico invece, si tratta dei corpus che hanno più valore al giorno d’oggi, in quanto vengono utilizzati per alimentare le memorie di traduzione. Queste sono delle banche dati che consentono di ritrovare delle sezioni del testo da tradurre già tradotte totalmente o parzialmente nella lingua di arrivo, permettendo quindi di diminuire il carico di lavoro dei traduttori su testi ripetitivi già tradotti.

secondaria sul ruolo della traduzione invisibile (cfr. § 0.6), è sembrato opportuno scegliere dei corpora che consentissero di vagliare queste ipotesi.

Tuttavia, anche nel campo quantitativo, si sono ben presto riscontrate due difficoltà: quella principale consisteva nella ricerca di un corpus allo stesso tempo abbastanza esteso per poter studiare i costrutti in questione e rappresentativo della varietà di italiano ricercata; la difficoltà secondaria consisteva proprio nella tipologia della varietà di italiano scelta, situata a cavallo tra italiano standard e neostandard.

In un primo tempo si è ritenuto che un corpus monolingue qualitativo di più di un milione di parole potesse bastare. Per questa ragione, è stato costituito un corpus di comunicati stampa di un milione di parole. L’ambito giornalistico infatti è considerato da molti autori ormai un

“attendibile riflesso dei cambiamenti in atto” (Fantuzzi 2003:218) nell’italiano contemporaneo. Eppure, i primi test hanno rivelato che le dimensioni di questo corpus erano insufficienti per raggiungere gli obiettivi della ricerca. Per queste ragioni si è pensato di ricorrere al CORpus dell'Italiano Scritto (CORIS) costituito da più di cento milioni di parole.

Il CORIS è stato elaborato e coordinato da R. Rossini Favretti sin dal 1998 (Rossini Favretti, Tamburini et al 2002). È accessibile gratuitamente dietro registrazione³³ ed è composto di due interfacce: la prima, il CORIS, per ricerche semplici, l’altra, il CODIS, per ricerche più complesse. Il CORIS/CODIS ha quasi tutte le funzioni che ci si aspetterebbe da uno strumento di ricerca di corpus. La possibilità di ricercare le strutture grammaticali³⁴ di un testo è in fase di progettazione. Tuttavia, la rarità di alcuni costrutti ha reso ben presto necessario il ricorso al più grande corpus di italiano disponibile: il web italiano, costituito da centinaia di milioni di pagine. Questo corpus, per quanto notevolmente eterogeneo, si avvicina alla definizione statistica di italiano standard e presenta sia caratteri standard sia caratteri marcati che permettono di vagliare le ipotesi di questo lavoro. Nella sezione seguente, vengono descritti il CORIS, il web italiano e l’OVI (1375).

1.6.2 Descrizione dei corpora impiegati

Questa sezione del lavoro merita una premessa riguardante il peso che ai corpora abbiamo deciso di dare nell’architettura del lavoro. In questo studio, infatti fungono da supporto all’analisi e non è stato possibile dar loro lo spazio e il rigore propri alle ricerche di corpus linguistics.

33 Sito internet: http://corpus.cilta.unibo.it:8080/coris_ita.html

34 Questa funzione richiede, infatti, un’annotazione grammaticale e una lemmatizzazione preliminari che non sono state ancora effettuate per il CORIS.

Secondo Engwall, due sono gli elementi di cui si deve tener conto nella costruzione di un corpus linguistico: il primo è l’obiettivo della ricerca, il secondo è costituito dalle risorse disponibili. Il primo agisce qualitativamente sul tipo di testi scelti; il secondo, quantitativamente sul numero di parole che costituiscono il corpus (1994). Per scegliere i testi, Engwall tiene conto degli elementi seguenti: la categoria, il genere, gli estremi cronologici e la sezione del testo. Esempi di categoria sono gli articoli giornalistici o le poesie; esempi di genere sono la prosa, gli articoli scientifici, i dialoghi; gli estremi cronologici possono consistere nella sincronia nel passato o nel presente e/o nella diacronia; infine egli introduce un ultimo parametro, quello della parte o del tutto. In altre parole, si può scegliere una parte di un testo o la sua interezza. Sono stati adottati due dei quattro parametri di Engwall: la categoria (che chiameremo ‘varietà’) e gli estremi cronologici. Il genere, infatti, ai fini delle analisi, non è direttamente rilevante anche se in fase di analisi vedremo che, per studi futuri, potrebbe diventarlo. La sezione del testo è stata tralasciata in quanto si considerano sempre i testi nella loro interezza laddove è possibile. Ai due parametri di Engwall ne sono stati aggiunti altri due, quello delle dimensioni e quello della vicinanza allo standard.

Mutatis mutandis, quattro sono i criteri scelti per caratterizzare i corpora³⁵: 1. le dimensioni;

2. gli estremi cronologici;

3. la varietà;

4. l’aderenza a quello che le grammatiche e i dizionari (chiamati fonti normative) indicano come accettabile. Dunque la vicinanza allo standard.

Tuttavia è necessario premettere che, a causa del carattere eterogeneo dei corpora, la loro caratterizzazione non è sempre omogenea. Lo scopo, d’altronde, non è quello di rendere uniformi dei corpora che non lo sono. Si tratta piuttosto di fornire criteri grazie ai quali possano essere paragonati gli uni agli altri, affinché dal loro confronto emerga distintamente la loro specificità (e quindi il loro contributo all’analisi). I corpora che descriveremo dettagliatamente sono il corpus dell’italiano in rete, il CORIS e l’OVI (1375). Sono stati aggiunti tre altri corpora che sono stati pure impiegati durante la ricerca, ma che non sono descritti nei dettagli. Uno è la LIZ 4.0 per le analisi diacroniche, comprendente soprattutto testi letterari, gli altri due sono piccoli corpora di italiano parlato: il Cresti (2000) e il LIP, il Lessico di frequenza dell'italiano parlato.

35 Per altre ricerche, potrebbero essere stati più pertinenti criteri diversi. Per un più ampio spettro di categorie, vedere Biber, D. (1988), Variation across Speech and Writing, Cambridge: Cambridge University Press.

1.6.2.1 Dimensioni

1.6.2.1.1 Il CORpus dell'Italiano Scritto (CORIS)

Come nota Kilgarriff a proposito del British National Corpus (BNC), composto da più di 100 milioni di parole: “per quanto riguarda le parole più rare o significati meno frequenti di parole comuni, o ancora alcune combinazioni di parole, spesso non otteniamo nessun risultato³⁶” (Kilgarriff e Grefenstette 2003:336). Tenendo conto di questo limite, il primo corpus che è stato preso in considerazione per questo studio è il CORIS, che è costituito anch’esso da più di 100 milioni di parole. Le proporzioni di ogni singola varietà sono descritte nella tabella e nel grafico seguenti.

Tabella 1 - Composizione del CORIS

Varietà Milioni di parole

STAMPA 38

NARRATIVA 25

PROSA ACCADEMICA 12

PROSA GIURIDICO-AMMINISTRATIVA 10

MISCELLANEA 10

EPHEMERA 5

Totale 100

Figura 3 - Composizione grafica del CORIS

38 25

10 10 5 0

5 10 15 20 25 30 35 40

Milioni di parole

STAMPA NARRATIVA

PROSA ACCADEMICA PROSA GIURIDICO-AMMINISTRATIVA MISCELLANEA EPHEMERA

1.6.2.1.2 Il web per tutte le lingue considerate

36 “For rarer words, rare meanings of common words, and combinations of words, we frequently find no evidence at all”, traduzione nostra.

La presunta rarità dei fenomeni ricercati, ha spinto ben presto a preferire al CORIS (utilizzato solo quando i risultati del web italiano non sono soddisfacenti), che appartiene grosso modo all’italiano standard, il web italiano. Quest’ultimo, che si suole considerare meno sorvegliato, consiste nei miliardi di pagine scritte in italiano standard e neo-standard che si trovano in rete.

Secondo l’analisi effettuata nel 2000 da Kilgarriff e Grefenstette (2003), le parole che costituivano il corpus italiano sulla rete in quell’anno erano approssimativamente di circa 2 miliardi (contro i 76 e mezzo dell’inglese). In realtà le dimensioni del web cambiano giorno dopo giorno³⁷, ma, ai fini della ricerca si è considerato che il corpus comprende almeno 2 miliardi di parole. Come risulta evidente in fase di analisi, quando si tratta di identificare fenomeni che presentano una certa marcatezza e della cui diffusione non si è affatto sicuri, passare da un corpus di 100 milioni di parole a uno di 2 miliardi può essere decisivo. Seguono le stime per le altre lingue considerate dalla ricerca di Kilgarriff e Grefenstette sempre nel 2000; portoghese: 1,3 miliardi di parole; spagnolo: 2,7; francese: 3,8; tedesco: 7.

1.6.2.1.3 L’Opera del Vocabolario Italiano

Si tratta di un database che contiene 1.849 testi in volgare ( per un totale di 21,2 milioni di parole) anteriori al 1375, anno della morte di Boccaccio. Anche se non si tratta di un corpus esteso quanto gli altri due, la sua utilità è quella di completare le analisi diacroniche che vertono sulle fonti normative.

Figura 4- Dimensioni dei corpora italiani

OVI 21

Coris 100

Web italiano 2000

0 500 1000 1500 2000

Dimensioni in milioni di parole

OVI Coris Web italiano

37 Non è infatti escluso che la crescita annua abbia portato, nel 2006, il numero di parole a più di 4 miliardi per l’italiano, come sembrano suggerire alcuni risultati della sezione sulle analisi. È lecito immaginare che lo stesso tipo di crescita si sia verificata per le altre lingue.

Figura 5 Dimensione approssimativa in parole di ogni corpus in Internet

Portoghese Italiano

Spagnolo

Francese

Tedesco

Inglese

0 10 20 30 40 50 60 70 80

Dimensioni

Portoghese Italiano Spagnolo Francese Tedesco Inglese

Dans le document Innovazioni sintattiche in italiano (alla luce della nozione di calco) (Page 58-64)