II. Le cancer du sein
4. Classification des cancers du sein
Para o tratamento estatístico dos dados, esta pesquisa utilizou o programa computacional GoldVarb-X33, desenvolvido por David Rand e David Sankoff, da Universidade de Montreal. O GoldVarb-X tem como base o pacote Varbrul 25, amplamente utilizado em análises variacionistas.
32 Version 6.0.0.88 (R12). MATLAB® é marca registrada de The Mathworks, Inc.
(www.mathworks.com/products/matlab)
Parte-se de uma lista de tokens (ocorrências) codificados para determinado número de fatores. Os códigos utilizados no programa devem ser previamente elaborados pelo pesquisador, que atribui um símbolo diferente para cada fator que compõe as variáveis independentes do trabalho. Através da codificação dos fatores, o programa contabiliza de maneira precisa o número de ocorrências, as porcentagens e os pesos relativos dos fatores das variáveis.
O primeiro passo para a utilização do programa é a criação de um arquivo de dados, denominado arquivo TKN, que pode ser digitado diretamente no aplicativo do GoldVarb ou em qualquer editor de texto. É nesse arquivo que todas as ocorrências são codificadas, conforme a variável dependente e os grupos de fatores especificados.
Em seguida, é necessário conferir esse arquivo de dados, de modo que nenhum erro de digitação possa influenciar negativamente a análise. O programa procura automaticamente esses possíveis erros para que, desse modo, o pesquisador possa corrigi-los manualmente.
Após a conferência do arquivo de dados, gera-se automaticamente um arquivo de condições, onde é possível realizar o procedimento de amalgamações e de exclusão de fatores, no caso de ocorrer knockout, isto é, a aplicação categórica da regra (100%) ou a sua não- aplicação (0%), sem a necessidade de alterar o arquivo de dados.
O próximo passo consiste na análise unidimensional. Essa análise é realizada pela criação de um arquivo de células, através do qual é possível criar o arquivo de resultados, que apresenta as porcentagens de aplicação da regra para cada fator de cada variável. Essa análise é importante por proporcionar uma visão geral da pesquisa, de modo que o pesquisador possa observar se as combinações ocorrem conforme o esperado.
Após essa análise, é possível realizar a análise multidimensional, na qual o programa seleciona as variáveis consideradas estatisticamente relevantes e exclui as não-relevantes. Essa análise ocorre em níveis (levels), que vão de 0 a X, sendo que X representa o número de variáveis selecionadas como relevantes pelo programa, mais um. No nível 0, o programa indica o valor do input, que corresponde à probabilidade de aplicação da regra, independentemente da proporção das ocorrências (Tagliamonte 2006, p.156).
No nível 1, o programa seleciona a primeira variável considerada estatisticamente significativa, no nível 2, a segunda variável estatisticamente significativa, e assim sucessivamente. Esse processo de seleção das variáveis, através do teste de combinações entre todos os grupos propostos é realizado pela análise progressiva step-up. Ao final desse processo, o programa indica a melhor rodada (best run), a qual apresenta o melhor nível de
significância, ou seja, probabilidade mais alta de a amostra ser representativa do universo correspondente.
Além do processo de seleção das variáveis estatisticamente significativas, o programa também seleciona as variáveis consideradas irrelevantes para a análise através da análise regressiva step-down.
Além das porcentagens de aplicação da regra para cada fator, a análise multidimensional fornece os pesos relativos para cada fator, que indicam a probabilidade de aplicação da regra. Os valores dos pesos relativos são sempre números entre 0,00 e 1,00, sendo que um valor próximo a 1,00 indica favorecimento à aplicação da regra, um valor próximo a 0,00, pouco favorecimento à aplicação da regra e um valor próximo a 0,50, o ponto neutro, ou seja, o fator em questão não tem efeito na regra.
Segundo Tagliamonte (2006, p.154), é comum encontrarmos na literatura a afirmação de que pesos acima de 0,50 favorecem a aplicação da regra e que pesos abaixo de 0,50 desfavorecem a regra. No entanto, a autora salienta a importância de interpretarmos esses valores de acordo com a posição relativa dos fatores no ranqueamento. A autora menciona o seguinte exemplo: em um primeiro momento, poderíamos considerar um fator com peso relativo de 0,59 como favorecedor à aplicação de determinada regra. Entretanto, em um grupo de três categorias, na qual a um fator foi atribuído o peso relativo de 0,85 e a outro, um peso relativo de 0,31, o fator com o peso relativo de 0,59 deve ser interpretado como um valor intermediário entre os dois outros fatores.
Além das análises unidimensional e multidimensional, o programa oferece a possibilidade de realizarem-se cruzamentos entre variáveis independentes, através da ferramenta cross tabulation. Os resultados obtidos através dos cruzamentos permitem observar as relações de dependência entre as variáveis independentes, causadas pela distribuição não-equilibrada das ocorrências pelas células formadas pelo cruzamento.
4.4 Conclusão
Este capítulo apresentou a amostra e as variáveis operacionais levadas em consideração neste trabalho. Parte-se da hipótese de que a variação na redução vocálica em palavras funcionais produzidas por falantes de inglês como LE é passível de sistematização, pois se acredita que esse processo é condicionado por fatores linguísticos e extralinguísticos.
Além disso, o presente capítulo descreveu os instrumentos utilizados nesta pesquisa: o instrumento de coleta, que consiste de setenta frases afirmativas a serem lidas e repetidas de memória pelos informantes; o instrumento de verificação acústica, utilizado para a medição dos formantes que compõem as vogais; o instrumento de organização dos dados, utilizado para calcular a Distância Euclidiana entre as vogais e determinar quais estão mais próximas ao schwa; e o instrumento de análise estatística, o qual apontou os resultados estatísticos que serão apresentados e discutidos no Capítulo 5 a seguir.