5. Coda: The ‘Orce Boy’
5.4. New media, new knowledge?
ou por múltiplas (por exemplo, as locuções verbais), enquanto as EM são inerentemente compostas por duas ou mais palavras.
Nesse sentido, as EM ainda são um fenômeno podendo integrar tanto a linguagem técnica e científica quanto a cotidiana, já os termos seriam específicos da primeira categoria.
E mesmo a terminologia que ocorre simultaneamente tanto em textos da linguagem cotidiana quanto nos científicos, adquirem traços semânticos mais e menos científicos conforme o tipo de comunicação envolvida.
Ainda segundo Villavicencio et al (2010) “os métodos computacionais disponíveis para lidar com EM em textos genéricos nem sempre podem ser aplicados para lidar com corpora especializados e para extração de terminologia”.(p. 34) No entanto, os autores apontam também para algumas analogias entre termos e EM, tais como apresentar uma semântica não convencional e constituir um desafio para os sistemas de PLN.
De acordo com Ramisch e Villavicencio (2010, p. 35) pelo menos quatro características idiossincráticas devem ser observadas quanto às EM, quais sejam: os níveis estatístico, lexical, pragmático, semântico ou sintático.
Assim, no nível lexical, as EM podem ser compostas de, pelo menos, uma palavra não podendo ser usada separadamente, mesmo apresentando uma semântica bastante definida no português, tais como algumas locuções conjuntivas.
Aquelas EM fixas em sua forma lexical, normalmente, são atribuídas a uma classe morfossintática, sendo, então processadas em PLN como lexemas. Entretanto, tal abordagem não se aplicaria às EM flexíveis, cujas idiossincrasias se manifestam em outros níveis, como, por exemplo, o sintático.
Já no nível sintático, as EM não costumam seguir as regras gramaticais de uma língua, na qual, geralmente, são usadas, pois os elementos de tais EM normalmente apresentam relações complexas entre si, demonstrando serem bastante flexíveis e variáveis em sua forma, ou simplesmente não apresentando variação alguma, conforme atestam os autores.
Também algumas EM apresentam componentes variáveis, mas restritas, ou ainda, não possibilitam aplicação de modificações cujas aplicações se dão, regularmente, em expressões composicionais.
Neste sentido, segundo aponta Baldwin (2005), “o resultado da combinação sintática de componentes nem sempre é previsível a partir do comportamento dos componentes”. O autor apresenta os exemplos wine and dine, expressão transitiva, como em He likes to wine and dine his guests. Nela estão coordenados dois verbos intransitivos.
Para Ramisch e Villavicencio (2010), é importante questionar se o comportamento sintático das EM é tão imprevisível assim. Assim, estes autores apresentam um estudo acerca da distribuição da flexibilidade de EM a partir de uma amostra aleatória de 100 expressões mais frequentes em inglês.
Nele Villavicencio e Copestake (2002) “constataram que os 43 casos de expressões verbais se dividiam em 22 grupos, cada um definindo um padrão de variação distinto.” Contudo, os autores também constataram que “a distribuições das instâncias nos grupos não é uniforme: os maiores grupos eram aqueles com características regulares, como o grupo de verbos transitivos com complementos definidos (chutar o balde).” (p.36)
Dessa forma, quanto mais variabilidade sintática, tanto menor é o número de elementos do grupo como, por exemplo, touch/find/strike a
[raw] nerve (nelas o grupo é composto de verbos variáveis e elementos opcionais). Além do mais,
[...] para os casos mais flexíveis, mesmo que uma forma canônica da EM possa ser encontrada, frequentemente ela também ocorre nas formas não canônicas (por exemplo, na voz passiva). Essas variações, segundo Riehemann (2001), são responsáveis por 25% das ocorrências de um determinado tipo de expressão em corpora. (p. 36)
Quanto à caracterização semântica, segundo Ramisch e Villavicencio (2010), as EM parecem ir das mais transparentes às mais opacas (idiomáticas). Os autores apontam a composicionalidade dessas EM, embora de difícil aferição, como responsáveis por interpretar uma sequência de palavras do significado daquelas que formam este tipo composição, pois, para eles
[…] entre as EI e aquelas que podem ser completamente modeladas através da polissemia das palavras que as compõem, existe um intervalo no qual se encontram aquelas expressões cujas partes composicionais ocorrem em meio a uma expressão globalmente não composicional.(p.37) Já quanto à caracterização pragmática, Ramisch e Villavicencio (2010, p. 38) destacam as situações nas quais as EM são empregadas, pois mesmo tendo, geralmente, qualidades convencionais quanto às demais caracterizações acima arroladas, as EM também dependem das circunstâncias nas quais se apresentam como no caso de bom dia, determinada pela situação de uso, mas também no caso de em primeiro lugar, cuja circunstância de tempo depende de nada ter sido dito antes a respeito do assunto tratado.
E, finalmente, a caracterização estatística que diz respeito aos itens lexicais os quais “coocorrem com frequência”, conforme os autores, pois tais combinações advêm de vários fatores de ordem política, histórica, dentre outros escolhidos pela comunidade linguística a qual os sujeitos pertencem.
Essas combinações, então, se tornam o modo que foi convencionado de esses sujeitos “dizerem determinada coisa”, já que elas são “combinações gramaticais de palavras corriqueiras com
semântica composicional, de forma que a expressão assume as propriedades das palavras que ela contém.”(p.38)
Para Ramisch e Villavicencio (2010), essas combinações não apresentam a possibilidade de substituição das palavras componentes por sinônimos ou por palavras semanticamente relacionadas, pois essas últimas tendem a parecer artificiais ou pouco naturais para um locutor nativo. Para ilustrar isso, os autores apresentam exemplos, a saber:
café forte, chuva torrencial, muito obrigado, feijão e arroz, café com leite. Uma forma de identificar colocações é tentar modificar uma das palavras envolvidas. Nesse caso, o resultado é o que se chama de anti-colocação, ou seja, uma combinação compreensível para um locutor nativo, porém pouco natural e por vezes inclusive cômica (Pearce, 2001). (p. 38–39)
Conforme Ramisch e Villavicencio (2010, p. 40), EM “são frequentemente empregadas para especificar uma situação ou ação que não pode ser descrita apenas com palavras simples.” Elas integram-se, com o passar do tempo, à linguagem corrente.
Esses autores (p. 42–43), por fim, apresentam um método de extração automática ou semiautomática de termos, que, embora não seja de expressões multipalavra, julga-se ser pertinente apresentar aqui a título de ilustração e fundamentação para a formação de um método próprio e adequado ao córpus coletado para esta pesquisa.
De acordo com Katz (1995), o referido método consite em extrair todas as sequências que obedecem a certo conjunto de padrões morfossintáticos para em seguida ordená-los por número de ocorrências. Uma ressalva importante é que o método não é capaz de capturar expressões as quais contenham palavras não adjacentes, e ignora termos pouco frequentes ou aqueles que possuam um padrão morfossintático diferente dos enunciados acima.
No entanto, os autores (p. 43) apontam para um método híbrido, conforme Frantzi, Ananiadou e Mima (2000) em que os termos candidatos são extraídos por meio de padrões “rasos” e em seguida sujeitados ao C-Value, um tipo de teste estatístico que lida con termos aninhados em outros termos, o que permite a extração de termos considerados de modo arbitrário.
Entretanto, é importante ressaltar que medidas baseadas em tabelas de contingência cuja sofisticação permite extrair EM mais genéricas tendem a apresentar resultados melhores.
Enfim, até aqui foram compilados conceitos e caracterizações fundamentais para a investigação em questão acerca das EM, visto que, nesta pesquisa, buscou-se analisar aquelas EM mais frequentes nos textos do córpus, mas também, as de maior número de textos. Também diferenciou-se, na pesquisa, as mais destacadas nos institucionais, nos técnicos, nas notícias e ou nas crônicas/contos, a fim de verificar em qual tipo de textos elas predominam, levando-se em consideração o contexto e, portanto, os colocados que as acompanham.
Por fim, vale destacar que este detalhamento na investigação pode proporcionar ao aprendiz de uma língua, ao professor, ou ao tradutor uma maior facilidade na hora de identificar os padrões encontrados em um idioma e suas variedades.
2.5.4 Grau de fixidez e decomponibilidade das EM detectados por