• Aucun résultat trouvé

Mestrando do Programa de Pós-Graduação em Estudos Linguísticos da Universidade Federal de Uberlândia. ORIENTADOR

Prof. Dr. Guilherme Fromm

E-MAIL

113

Visando explorar as possibilidades de estudo da língua trazidas por essas áreas, este ensaio propõe-se a delimitar o escopo de estudo da LCO e do PLN, buscando explicitar as semelhanças e diferenças entre as duas, e demonstrar como essas áreas fazem uso de algumas teorias linguísticas para embasar seus procedimentos e metodologias.

Biemann (2007) explica que as duas áreas são responsáveis pelo manuseio da língua humana por sistemas de computador e possuem objetivos ligeiramente diferentes: a LCO é uma área que utiliza sistemas computacionais para buscar conclusões sobre a língua e está fortemente embasada no pensamento linguístico, implementando teorias linguísticas juntamente com recursos da informática para a resolução de problemas linguísticos; já o PLN está menos preocupado com a obtenção de informações linguísticas e mais focado no processamento da língua propriamente dito, usando o conhecimento sobre a estrutura da língua para se dedicar ao desenvolvimento de sistemas e visando boa performance e eficiência de processamento de dados, e não necessariamente a representação da língua para seres humanos. Em outras palavras, pode-se dizer que, embora as duas áreas necessitem tanto dos conhecimentos advindos da Linguística quanto da Ciência da Computação, a LCO está um pouco mais próxima da primeira, e o PLN, mais atrelado à segunda. No entanto, não é fácil (nem necessário) separar minuciosamente as duas disciplinas, uma vez que se influenciam mutuamente e avançam em conjunto.

O que a LCO e o PLN possibilitam aos linguistas é uma nova forma de analisar e descrever a língua. Supõe-se que a análise linguística via sistemas de computador poderá ajudar a alcançar uma descrição completa da estrutura das línguas, ou seja, um entendimento da construção das línguas humanas em geral, independentemente do conhecimento específico sobre determinada língua:

Vários linguistas demonstraram o ideal de produzir um método de descrição da língua que exclua o significado de unidades linguísticas significativas. [...] Isso resultaria em uma descrição completa da língua e possibilitaria a compilação de uma gramática e um léxico que careceriam apenas das definições das palavras na forma em que estão presentes em nossos léxicos atuais. Na realidade, nenhum linguista chegou à ideia de analisar e descrever uma língua da qual não possui conhecimento algum dessa maneira. Essa tarefa dispenderia tanto tempo e energia que desencorajou até aqueles que consideram essa abordagem como a única teoricamente aceitável. (Martinet, 1969, apud Bordag, 2007, p. 1, tradução minha)18

18 No original: Several linguists have stated the ideal to produce a description method [of language] that excludes the meaning of meaningful [language] units. [...] This would result in a complete description of the language and it would be possible to compile a grammar and a lexicon that would lack only the definitions [of the words] in the way they are present in our current lexicons. In reality no linguist has yet come to the idea of analyzing and describing a language he does not know at all in such a manner. Such

114

O que Bordag (2007) argumenta ao fazer essa citação de André Martinet é que uma descrição completa da estrutura da língua implicaria em desconsiderar o significado, ou seja, as informações semânticas. Isso tem repercussões importantes para a forma de se pensar o estudo da língua, uma vez que a semântica é parte integrante da ciência da Linguística como a conhecemos. Porém, é necessário levar em consideração que a semântica está fortemente relacionada à interpretação subjetiva das informações linguísticas: somos nós, falantes da língua, que atribuímos sentido aos enunciados, e é claro que isso está sujeito a variações de interpretação. Nota-se que a semântica é um componente, por assim dizer, instável da língua. Os significados das palavras em uma língua mudam ao longo do tempo, e a eles são atribuídos novos sentidos e interpretações, o que é feito pelos sujeitos falantes dessa língua. Como visto na citação acima, a compilação completa da gramática e do léxico (estrutura) da língua careceriam, apenas, do significado atual das palavras. Portanto, excluindo-se, temporariamente, essa parte mutável da língua, que é a semântica, teríamos uma espécie de esqueleto da sua estrutura, que seria, hipoteticamente, suficiente para uma descrição completa. É importante ressaltar que não se está desconsiderando a importância da semântica e de sua interpretação subjetiva, mas apenas se separando, temporariamente, a estrutura da língua para que possa ser analisada.

Fica claro que o Estruturalismo é uma das teorias linguísticas que mais influenciam os procedimentos de processamento da língua natural, uma vez que é o conhecimento sobre o funcionamento da estrutura da língua que permitirá a interpretação dos dados linguísticos por computador e sua posterior descrição. No Curso de Linguística Geral, Saussure (1999) discorreu sobre vários conceitos que são usados pela LCO e pelo PLN como base para a elaboração dos algoritmos para interpretação de dados linguísticos: a noção da língua como um sistema de signos, a distinção entre sincronia e diacronia, a distinção entre língua e fala, as noções de arbitrariedade e arbitrariedade relativa, que levam a relações sintagmáticas e paradigmáticas, e as noções de significante e significado.

Resumidamente, relações sintagmáticas são relações estabelecidas de forma linear entre unidades linguísticas. Tais relações existem, segundo Saussure, em virtude da impossibilidade de pronunciar-se mais de uma palavra ou unidade linguística ao mesmo tempo. Isso traz a noção de ordem de palavras em um determinado enunciado, uma vez que as palavras devem ser sequenciadas uma após a outra. Já as relações paradigmáticas são não lineares e dizem respeito às possíveis associações entre palavras. Segundo Bordag (2007), ambas as relações são usadas

an undertaking would by all accounts require an expense of time and energy that has deterred even those who consider this

115

pela LCO e pelo PLN para descrever a estrutura da língua e a forma como cada palavra está relacionada, lançando a suposição de que as relações paradigmáticas são, de alguma forma, baseadas nas relações sintagmáticas.

As premissas advindas da teoria linguística e adotadas pela LCO e pelo PLN podem ser assim resumidas:

Há uma estrutura no signo (em outras palavras, há um sistema de signos) que pode ser examinada. Uma descrição completa dessa estrutura não é uma descrição completa do significado. Saussure [...] introduziu a noção dinâmica de língua que qualquer descrição de língua deve considerar. Por fim, de acordo com Saussure [...], a língua é constituída de vários níveis, e em cada nível operam dois princípios idênticos de relações sintagmáticas composicionais e classes paradigmáticas de abstração (ou equivalência) (Bordag, 2007, p. 22, tradução minha).19

Isso posto, é necessário considerar que as possibilidades de manuseio da linguagem natural (linguagem humana) estão intrinsecamente relacionadas à capacidade de processamento dos computadores, ou seja, trata-se de uma análise que depende fortemente do avanço tecnológico e do aumento das possibilidades de processamento de dados linguísticos. Isso acontece porque, para se chegar a conclusões gerais e relevantes sobre uma determinada língua, é necessária uma amostra de grande tamanho dessa língua (corpus) e que seja representativa do maior número possível de variações.

Para interpretar essa quantidade de dados por computador, uma grande capacidade de processamento é necessária. Evidencia-se, portanto, o caráter pragmático da LCO e do PLN, que baseiam suas análises no desempenho linguístico, ou seja, em uma amostra da língua de tamanho considerável e produzida de forma natural pelos falantes, e não na competência linguística. Essa discussão sobre desempenho e competência é amplamente presente na Linguística, inclusive na LC (Sardinha, 2004), que advoga o foco no desempenho linguístico para a obtenção de conclusões empiricamente comprováveis sobre a língua. Tal abordagem empírica também é adotada pela metodologia da LCO e da PLN:

A construção de algoritmos para extração de conhecimento linguístico pode ser classificada sob a abordagem empírica de análise da língua, e, portanto, a noção de “empírico” (do grego, “a experiência”) deve ser examinada mais de perto. Grosso modo, uma abordagem é empírica se envolve a observação de dados reais, ao invés do uso de exemplos artificialmente construídos ou de intuição. O empirismo também é conhecido como um método para

19 No original: There is structure in the sign (in other words, there is a system of signs) that can be examined. A complete description of this structure is not a complete description of meaning. De Saussure and Peirce introduce the dynamic notion of language which any language description must account for. Finally, according to de Saussure and Hjelmslev, language consists of several levels, and on each level two identical principles of syntagmatic compositional relations and paradigmatic abstraction (or equivalence).

116

construir ou desmentir hipóteses por meio de observações e experimentos, ou como o raciocínio indutivo (contrário de dedutivo) baseado nessas observações. (Bordag, 2007, p. 14, tradução minha).20

As oposições indução versus dedução, desempenho versus competência e observação empírica versus introspecção intuitiva permeiam um embate teórico existente na Linguística que se originou no contraste entre as ideias trazidas por Saussure e por Noam Chomsky. Como visto, o Estruturalismo de Saussure fornece as premissas básicas para os modelos de processamento de língua natural. Porém, Biemann (2007) mostra que essa disciplina não descarta algumas contribuições pontuais da teoria de Chomsky. Mais especificamente, a LCO e o PLN fazem uso dos níveis de adequação propostos por Chomsky em sua obra Aspectos da Teoria da Sintaxe para validar os modelos de processamento de linguagem nos níveis observacional, descritivo e explicativo.

Dessa forma, um sistema de processamento de linguagem natural que dê conta da descrição da língua deve possuir os seguinte níveis: (i) adequação observacional, ou seja, enumerar exaustivamente os dados disponíveis, sendo capaz de determinar, por exemplo, se uma frase pertence à gramática em questão ou não; (ii) adequação descritiva, isto é, explicitar regras formais para todos os possíveis arranjos de dados, expressando regularidades subjacentes da língua; e (iii) adequação explicativa, ou seja, fornecer mecanismos que possibilitem a escolha mais adequada entre descrições concorrentes, com base em princípios independentes de qualquer língua em particular. A adequação explicativa seria o mais alto nível que pode ser alcançado por uma gramática ou teoria da língua, ou, nesse caso, pelo modelo de processamento de língua.

Bordag (2007) explica que, apesar de fazer uso desses três níveis de adequação propostos por Chomsky, ao usar dados provenientes de um determinado corpus e analisados por meio de uma abordagem descritiva empírica, a disciplina do processamento de língua natural parte de uma premissa que entra em choque com o pensamento do próprio autor, já que as formalizações de Chomsky “não partem de uma abordam empírica, mas, sim, da introspecção humana explícita” (Bordag, 2007, p. 18, tradução nossa). Mais especificamente,

De acordo com Chomsky, os níveis de adequação descritiva e explicativa somente podem ser alcançados por teorias linguísticas consoantes com a percepção dele, uma vez que apenas caminhos teóricos encontrados por meio da introspecção baseada na intuição de um falante

20 No original: Building algorithms to extract language knowledge can be more generally subsumed under the empirical approach to language analysis and so the notion of ‘empirical’ (Greek - ‘the experience’) must be examined closer. Simply put, an approach is empirical if it involves observing real-world data, as opposed to using artificially constructed examples or intuition. It is also known as a method to construct hypotheses or disprove them using observations and experiments, or as the inductive (contrary to deductive) reasoning or formulation of hypotheses based on such observations.

117

nativo podem realizar as abstrações e meta-abstrações necessárias (Biemann, 2007, p. 11, tradução minha).21

De acordo com Biemann (2007), Chomsky afirma que a abordagem empírica da LC, da LCO e do PLN não é capaz de dar conta dos níveis mais altos de adequação, que só seriam alcançáveis mediante introspecção e dedução. Aqui, entende-se que a descrição da língua deve partir, exatamente, do ponto de vista oposto, ou seja, a introspecção está fadada a levar a conclusões particulares sobre a língua, uma vez que está ligada às interpretações e intuições subjetivas de um falante ideal, enquanto a observação empírica possibilita a análise de dados palpáveis e concretos sobre a língua de maneira mais ampla.

Isso posto, cabe demonstrar algumas limitações apresentadas pela LCO e pelo PLN. Em seu estado atual, essas disciplinas focam seus esforços na aquisição da linguagem pela máquina, por meio, por exemplo, da formulação de regras de processamento ou do fornecimento de anotações que a máquina deve “aprender” e reproduzir. Evidentemente, a aquisição da língua pelo ser humano ocorre de maneira bastante diferente, que podemos chamar de natural, uma vez que não necessita de supervisão, mas apenas de exposição (Biemann, 2007). Um dos caminhos para superar essa limitação é a elaboração de sistemas que funcionem de forma não supervisionada, ou seja, sem a necessidade de fornecimento prévio de informações.

Vimos que a Linguística Computacional e o Processamento de Linguagem Natural são disciplinas intimamente ligadas à Linguística de Corpus e partem de uma abordagem empirista, buscando a descrição da língua por meio de processos indutivos e de dados linguísticos concretos. O contínuo avanço das tecnologias necessárias para a elaboração de modelos de processamento de língua permitirá, cada vez mais, a obtenção de conclusões que ajudem os linguistas a ampliar seu entendimento sobre o funcionamento da língua e sua estrutura.

REFERÊNCIAS

BIEMANN, C. Unsupervised and knowledge-free natural language processing in the structure discovery paradigm. 2007. 199f. Tese (Doutorado em Ciência da Computação) - Faculdade de Matemática e Ciência da Computação, Universidade de Leipzig, Leipzig, 2007.

21 According to Chomsky, the levels of descriptive and explanatory adequacy can only be reached by linguistic theories in his sense, as only theoretic means found by introspection based on the native speaker’s intuition can perform the necessary abstractions and meta-abstractions.

118

BORDAG, S. Elements of knowledge-free and unsupervised lexical acquisition. 2007. 263f. Tese (Doutorado em Ciência da Computação) - Faculdade de Matemática e Ciência da Computação, Universidade de Leipzig, Leipzig, 2007.

CHOMSKY, N. Preliminares Metodológicas. In: ______. Aspectos da teoria da sintaxe. 2. ed. Coimbra: Armênio Amado, 1978.

SARDINHA, T. B. Linguística de corpus. São Paulo: Manole, 2004.

SAUSSURE, F. de. Curso de lingüística geral. Tradução Antônio Chelini, José Paulo Paes, Isidoro Blikstein. 25. ed. São Paulo: Cultrix, 1999.

119

LINGUÍSTICA DE CORPUS E TEORIAS