O método de análise escolhido para entrada nos corpora referese à utilização de instrumentos estatísticocomputacionais, baseado em pressupostos metodológicos de análise lexical, textual e discursiva, proposto por André Camlong (1996).
Ao descrever o método, o autor defineo da seguinte forma:
Método de análise estatística destinado ao tratamento informático de dados lexicais textuais e discursivas, para o uso de todos aqueles que desejam se dedicar à prática de análise “científica” de qualquer corpus textual (escrito ou transcrito), exposto de um ponto de vista teórico e prático. (CAMLONG, 1996, p. 5)
O método foi desenvolvido especialmente para análises lingüísticas, em função de um modelo de análise lexical, textual e discursiva método matemáticoestatístico computacional de análise de textos Ele permite que se faça indexação de textos, tratamentos estatístico de léxicos, extração de seqüências e concordâncias, bem como a criação automática de dicionários
12
Não definimos variáveis outras nesse estudo, tais como: (idade, tempo de profissão, tempo de participação em sindicato), uma vez que nosso objetivo é fazer uma análise enunciativodiscursiva desses sujeitos em sua individualidade.
O método STABLEX 13 , segundo Camlong (1996) tem sua importância pelo fato deste nos propiciar um tratamento de corpora através de um critério científico (a estatística paramétrica), de forma a permitir, através de uma leitura da descrição do peso da população recenseada, visualizar todo o conjunto de constituição lexical, textual e discursiva, tanto do ponto de vista de cada variável individualmente, como comparálas e interpretálas entre si.
O método estatístico permite descrever, analisar e tomar visíveis as relações que ligam os elementos lexicaissintáticosemânticos na estruturação de textos e de discursos. A estatística não trata apenas de dados quantitativos, mas de dados qualitativos sobre um fundo quantitativo: ele mede as grandezas.
O método Camlong considera o conteúdo real dos léxicos criados e de seus repertórios lexicais recenseados. Esses formam o texto que veicula um discurso. O método fornece os procedimentos de cálculos, as regras de validação e as leis de determinação, o da distribuição permite visualizar a arquitetura textual do discurso.
Nesse sentido, o método possibilita, ao analista, num primeiro momento, uma leitura dos dados descritos (pesos dos itens lexicais), evitando, assim, a escolha intencional de determinados itens lexicais que pudessem oferecer as respostas esperadas pelo pesquisador em relação às suas hipóteses e perguntas de pesquisa.
O nosso objeto de estudo, nesse trabalho, é o discurso enunciado pelas trabalhadoras domésticas que passaram por um processo de formação escolar e profissional durante um ano e meio. Assim, para muitos, pode parecer inadequado utilizarmos dados numéricos para tratar esse discurso. No entanto, vale salientar que estes números representam o léxico, o qual representa os textos e estes os discursos. Desse modo, o método estatístico permite descrever e analisar as relações entre os elementos lexicais e sintático semânticos que permeiam os discursos das trabalhadoras. (CAMLONG, 1996)
Esse é, pois, um método quantiqualitativo de análise de dados, o que significa dizer que se trata da descrição de dados qualitativos sobre um fundo quantitativo. Segundo Camlong (1996), através da matriz lexical é possível visualizar toda a “arquitetura textual do 13
STABLEX significa: STA – de statistique (estatística),TAB – de tables, tableaux (tabelas),LEX– de lexique (léxico= dicionário)T...EX– de texte (texto).
discurso”, o que nos possibilita, como pesquisadores, obter recortes enunciativos validados a partir do peso atribuído a cada léxico do conjunto discursivo.
3.2.1 O processamento informatizado dos dados e suas etapas:
O processamento de dados, pelo software STABLEX, é realizado em três etapas, conforme descrição a seguir:
PRIMEIRA ETAPA: constituição de léxicos – recenseamento exaustivo dos itens lexicais dos textos, distribuídos em variáveis
SEGUNDA ETAPA: constituição de Tabelas através da MACRO STAB. Aplicandose fórmula estatística, são geradas as tabelas de freqüência e de pesos dos itens lexicais no conjunto das variáveis
TERCEIRA ETAPA: definição de novos agrupamentos de itens lexicais, de acordo com as temáticas que se pretende analisar.
3.2.2 Léxicos e tabelas
Os discursos de nossos corpora de arquivo foram precedidos de um processamento de dados, através do programa de informática STABLEX, a partir do qual foram produzidas tabelas de descrição de freqüências e de pesos lexicais (CAMLONG, 1996). A constituição dos léxicos foi, pois, realizada a partir do recenseamento exaustivo do vocabulário obtido através do processamento de 13 variáveis que constituem o nosso corpora, gerando tabelas de distribuição de freqüência e de desvios reduzidos, organizadas por ordem alfabética e por ordem de freqüência de emprego (CAMLONG, 1996).
As TDFs – tabelas de distribuição de freqüências – são utilizadas para informar o número de ocorrências e a freqüência dos léxicos recenseados nos corpora das variáveis e servem de matriz à construção das TDRs– tabelas de desvios reduzidos. A Tabela de desvio reduzido é uma matriz de medidas algébricas, com a qual podese determinar o sentido da distribuição dos vocábulos nas variáveis (teste da normalidade), o peso lexical e o sentido vetorial dos pesos. Segundo Camlong (1996: p. 2941):
O valor do desvio reduzido permite a localização dos espaços de implantação dos vocábulos e a determinação de sua qualidade e representatividade. O peso lexical, quando positivo, expressa uma escolha preferencial; quando negativo, uma rejeição; e nulo, um emprego normalizado em torno da média “0”. QUADRO 2 – Escala de Pesos Lexicais Fonte: CAMLONG, 1996, p. 127 VOCABULÁRIO BÁSICO: ENTRE +1,96 e 1,96 VOCABULÁRIO PREFERENCIAL: DE +1,96 ACIMA VOCABULÁRIO DIFERENCIAL: DE 1,96 EM DIANTE
Segundo Zapparoli e Camlong (2002, p.4445),
(...) a densidade de peso, de um texto, é expressa em função da escala aritmética de uma matriz que situa a massa lexical no eixo das abscissas e o peso lexical no eixo das ordenadas. A densidade do peso, dependente do conteúdo lexical de cada célula da matriz, é tanto mais forte ou mais fraco em proporção inversa ao número de elementos lexicais nela contidos; é tanto mais forte, ou tanto mais fraca, quando a medida algébrica tende mais para o alto, ou mais para o baixo da escala aritmética da matriz: positiva, exprime uma escolha preferencial; negativa, uma rejeição; nula, um emprego normalizado em torno da média. Ou seja, todo o desvio reduzido positivo acusa um uso privilegiado; negativo, um uso rejeitado; em torno da média reduzida a zero, um uso normal.
Considerando que o nosso objetivo nessa pesquisa é compreender como se dá a construção identitária das trabalhadoras domésticas enquanto categoria, à luz da cultura e dos novos conceitos introduzidos pelo Projeto de qualificação TDC e bem como qual é o papel da linguagem no retrabalho desse processo de construção identitária, realizamos um recorte dos itens lexicais e discursivos a partir dos conceitos de: identidade e cultura, trabalho decente, qualidade de vida e empoderamento.
O recorte dos itens lexicais, do ponto de vista quantitativo, foi efetuado a partir de uma tipologia de vocábulos que expressam exatamente o valor do conjunto de pesos lexicais distribuídos nas 13 (treze) variáveis.
Tais itens de vocabulário podem ser definidos, segundo Camlong (1996), como:
Vocabulário Preferencial é aquele cujo emprego é significativamente excedente, ou seja, é objeto de escolha privilegiada de nossos atores – com peso lexical altamente positivo (possui uma força temática devido às suas qualidades particularmente apropriadas à composição do texto e do discurso);
Vocabulário Diferencial é um vocabulário de um emprego significativamente deficitário de nossos atores, ou seja, objeto de abandono ou rejeição – cujo peso lexical negativo é altamente significativo;
Vocabulário Básico é um vocabulário cujo peso lexical é centrado em torno da média reduzida a zero (2<z<+2). Distinguemse: vocabulário fundamentalmente básico (entre 1<z<+1) constituído por palavras nocionais fundamentais e que servem de suporte para a construção do texto;
particular destacamse os hápax, que pertencem exclusivamente a uma única variável e ocorrem uma única vez em todo o corpus, caracterizandose pela precisão da escolha de nossos atores e sendo essencialmente temáticos.
3.2.2.1 O processo de lematização
Após constituir as tabelas de freqüência e a tabela de desvios reduzidos (TDFs e TDRs), assim como todo o conjunto de vocábulos de cada variável ter sido distribuído de acordo com a tipologia e vocabulários descritos acima, segundo o peso lexical, foram identificados os conjuntos de itens lexicais cujos campos semânticos e respectivos pesos lexicais remetiam às temáticas que eram objeto de nosso interesse para esse estudo. Tais itens foram reagrupados através da técnica de síntese, última fase de processamento do método Camlong, chamada lematização.
A lematização é uma técnica de síntese parcial do léxico que permite o reagrupamento de um conjunto de vocábulos (nomes, verbos, adjetivos e advérbios) a um tema para formar um novo vetor e pesálo, bem como determinar suas características (carga semântica, temática, retórica...) e o lugar que ele ocupa no corpus ou na variável.
A título de demonstração, vamos mostrar um pequeno recorte da nossa lematização a partir de um determinado conceito 14 .
LÉXICO Freq. Freq. Variável (1) Valor do desvio reduzido Decente 12 12 +5,42 Honesto 4 3 +5,61 Recompensa 2 2 +5,42 Amor 4 2 +3,57 Serviço 12 2 +2,64 Dignidade 9 0 0 recompensado 1 1 +3,83 TOTAIS 44 22 +26,49 QUADRO 3 – Tema: Trabalho decente Fonte: Joseane Brito, 2007.
Os subtemas, lematizados a partir de recortes dos itens lexicais recenseados e descritos nas TDRs e TVLs, foram organizados em função dos campos semânticos (sentidos) aos quais tais itens lexicais remetem, a saber: aos conceitos que servem de suporte ao projeto TDC, já descritos anteriormente. Essas interrelações e a constituição textual e discursiva deste trabalho serão discutidas a seguir na análise dos dados.
14