A transcrição foi o principal tratamento dos dados orais realizado para constituir o nosso corpus oral. Com essa atividade, tornamos os dados aptos para serem lidos pelo computador e pelo WST. Cabe esclarecer que não utilizamos o procedimento de alinhamento som-escrita.
A seguir, descrevemos o tratamento dos dados orais ao falar do método de transcrição, da etiquetagem parcial e da exclusão dos dados antroponímicos.
4.2.6.1 Método de transcrição
O método de transcrição consistiu na audição atenta dos áudios das entrevistas, com o uso de fones de ouvido. As entrevistas foram transcritas de forma digitada manualmente, diretamente em arquivos de extensão doc. As entrevistas foram escutadas mais de uma vez. Íamos pausando, voltando e conferindo os dados digitados durante a transcrição.
Acreditávamos inicialmente que seria necessário filtrar os áudios em programas para extração de ruído, amplificação de som e, até, desaceleramento da fala. Porém, foi possível transcrever as entrevistas sem o auxílio desses recursos. Todavia, reconheçemos que foi um processo difícil, cansativo e longo.
O corpus oral constituído pelas 19 entrevistas foi transcrito pelo método ortográfico, seguindo a forma de grafia já convencionada no documento que expomos no tópico 4.1.3.2 (Figura 07), adotando assim a mesma forma de escrita utilizada na conversão e convenção dos
corpora escritos, excetuando-se os casos de variação, que não foram normatizados, justamente para não perdermos o registro das variações.
Quando os sujeitos-entrevistados respondiam “misturando”61 português e pomerano, transcrevemos fielmente, grafando inclusive as variações do português não-padrão, conforme pronunciado pelos falantes. Fizemos essa opção para ser fiel aos dados e, também, porque pode permitir o estudo da situação do português entre os pomeranos bilíngues em pomerano- português.
A transcrição das 19 entrevistas durou exatos 94 dias e cerca de 2.256 horas de tempo despendidas nas transcrições, sendo os 30 primeiros dias sem dedicação exclusiva, nos quais transcrevemos cinco entrevistas, e os 64 dias restantes com regime de dedicação total e exclusiva, durante todos os dias e quase todas as horas desses dias. A média era de cinco dias diretos para cada entrevista. Inserimos essas informações detalhadas sobre o tempo de transcrição, pois acreditamos que essa informação pode auxiliar quem queira elaborar um cronograma para um projeto de pesquisa que envolva compilação de corpus oral e/ou transcrição de falas.
Durante as transcrições dos dados orais consultávamos nos corpora escritos a recorrência de escritas de uma mesma forma, tanto manualmente, quanto com o auxílio do WST. Desse modo, quando um item era originalmente escrito nos corpora escritos de diferentes maneiras, porém, uma forma era mais frequente, utilizávamos esse critério para grafar itens sobre os quais tínhamos dúvidas em como transcrever o que ouvíamos.
Além de consultar constantemente os textos da literatura pomerana, já mencionados neste trabalho, para nos basear ao transcrever as entrevistas, também consultamos a Barther Bibel (mencionada no capítulo 2 deste trabalho), em PDF, e nos baseávamos na escrita dela para decidir sobre a escrita de alguns itens. No entanto, como o formato desta Bíblia não permitia consulta dos itens pela função localizar, por estar em letra gótica, desenvolvemos o seguinte método: consultávamos pela função busca da Bíblia online em alemão, versão de Lutero, um versículo que contivesse a palavra desejada de se grafar. Em seguida, ao saber em qual versículo conteria aquele item, íamos para página, capítulo e versículo correspondentes na Bíblia pomerana, localizávamos pela leitura atenta aquele item, dentro do versículo e, assim,
61 Falamos em mistura e não em interferência, com base em Bossmann (1953), Heye (1986), Gumperz (1998), Von Borstel (2011) e Takano (2013). A interferência parece ser unilateral, já a mistura é quando os falantes aparentemente não percebem os empréstimos, sendo para eles um código só, uma fala homogênea, bidirecional e em situação de estabilidade, como um mesmo código, então preferimos falar em mistura. Constatamos que alguns pomeranos misturam pomerano e português sem perceber e já outros comentam que hoje o português e o pomerano está “misturado”.
descobríamos como o item foi grafado originalmente no pomerano da Barther Bibel. Quando conferia com a pronúncia e era o mesmo item lexical, escrevíamos conforme encontrado na Bíblia pomerana.
Também salvamos os textos em várias versões: uma versão completa em doc, contendo os diálogos entre sujeito-entrevistado e sujeito-entrevistador, com os nomes dos participantes; uma versão em doc com o nome dos participantes já codificados; e uma versão igual a esta última, porém, em extensão txt, e somente com as respotas dos sujeitos-entrevistados para permitir a leitura pelo WST.
Esclarecemos que a transcrição dos dados orais e a escrita dos dados dos corpora como um todo – incluindo os dados escritos – carecem de uma validação, a qual poderá ser realizada futuramente por um falante de pomerano que conheça a grafia pomerana.
Outro tratamento dos dados orais foi a etiquetagem parcial em alguns textos, para identificar alguns itens, quando consideramos que era necessário inserir informações, pois a transcrição não carrega consigo as informações sonoras e, por isso, ressalvamos algumas anotações que contribuem para identificação do som e das variações. Além disso, inserimos outras etiquetas, sobre as quais explicaremos melhor no próximo tópico.
4.2.6.2 Etiquetagem parcial
Criamos alguns códigos ou siglas para identificar as informações que inserimos como uma forma de etiquetagem parcial dos dados orais, no que tange a traduções para o português, para o alemão, e também observações sobre identificação de verbos, substantivos, variações dentro do pomerano, recuperação do item lexical no alemão-padrão e outras informações que consideramos úteis.
A etiquetagem parcial foi um recurso útil para identificar entre parêntesis angulares “< >” (ou tags)ositens que eram verbos, substantivos e artigos, nos limitamos a eles por questão de tempo e também porque pretendíamos produzir um glossário. Também fazíamos a tradução de algumas palavras menos comuns para o português e, quando percebíamos que era uma variação no uso de um mesmo item que fora pronunciado diferente em outra região, também etiquetávamos. Outra forma de etiquetagem foi indicar a forma dos itens em alemão-padrão, para permitir comparações posteriores durante as análises.
A etiquetagem foi parcial, pois foi feita quase exclusivamente no corpus oral e, mesmo assim, somente em alguns arquivos. Não haveria tempo hábil para etiquetar todos os dados dos
corpora, em apenas dois anos de mestrado, portanto a prioridade foi etiquetar itens que se destacavam pela raridade, variação diatópica ou variação em relação ao alemão-padrão.
Seguem alguns exemplos de etiquetagens realizadas durante o tratamento de dados:
Hochtiedsbirer <HD: Hochzeitsbitter, PT: Convidador para casamento>.
<V: Hochtiedbirar>. Em que, HD é Hochdeutsch, PT é português e V é variação (1).
Também criamos algumas etiquetas para identificar a variação de som, para uma forma de escrita que padronizamos, por exemplo: Fruug <S: Fruuch>, onde S é som. Ainda outro caso de etiqueta ou anotação entre parêntesis angulares era quando precisávamos fazer alguma observação sobre aquela fala, nossas conjecturas sobre metaplasmos, marcação de itens que gostaríamos de verificar se se tratam de inovações que ocorreram no alto-alemão e não ocorreram no baixo-alemão, etc. Segue, na Figura 15, alguns exemplos da nossa etiquetagem parcial, em um trecho com perguntas realizadas em português.
Figura 15: Exemplo de etiquetagem, antes da retirada das perguntas do corpus oral.
Fonte: Elaboração própria.
Para conseguirmos padronizar a escrita de transcrições que tínhamos feito no início e as que fizemos por último, marcamos os casos que tivemos dúvida sobre a escrita com <*normatizar> para podermos buscar pela etiqueta e normatizar. A figura acima mostra um trecho de interação com perguntas em português, antes da extração das perguntas feitas por nós e do salvamento da última versão.
Reconhecemos que podem haver variações reais na pronúncia que foram etiquetadas com <V: >, mas também podemos ter escrito de maneira diferente, pois o corpus ainda carece de mais uma revisão atenta para normatização, o que demanda muito tempo.
Apresentamos, na Figura 16, a seguir, mais um exemplo de etiquetagem, retirado dos corpora escritos.
Figura 16: Exemplo de etiquetagem retirado dos corpora escritos.
Fonte: Elaboração própria.
Foram criadas as etiquetas: <S:> para representar o som, com o intuito de informar a pronúncia pomerana; <PT:> para inserir a tradução para o português; <HD:> para inserir a forma em alemão-padrão; <HR:> para marcar itens possívelmente hunsriqueanos e fazer sua posterior conferência; <BP> para marcar intes possívelmente provenientes do Brasilianisch- Pommersch, ou seja, a variedade brasileira do pomerano; <V:> para identificar variações não normatizadas; <M:> para anotar hipóteses sobre metaplasmos e a etiqueta livre < >, com comentários e análises do pesquisador. Essas etiquetas foram utilizadas tanto para os corpora escritos quanto para o corpus oral. No caso de algumas escritas pomeranas, que encontramos na forma transliterada, as mesmas foram etiquetadas para manter a forma original paralela à nossa conversão da escrita. Não foram todos os casos e arquivos de dados que foram etiquetados, somente quando houve tempo hábil para fazê-lo. O conjunto dos corpora poderá ser futuramente etiquetado de forma completa.
4.2.6.3 Exclusão de dados antroponímicos
Devido à exigência do CEP de não identificar os sujeitos participantes das entrevistas, foi necessário omitir todos os nomes e sobrenomes dos pomeranos na transcrição dos dados. Por isso, criamos dentro dos arquivos uma codificação que se refereà identificação das falas, criando um código para a etiqueta de identificação do sujeito-entrevistado, com as iniciais de seu nome, e um código de identificação do sujeito-entrevistador, com as iniciais de seu nome, sendo estas últimas antes da exclusão das questões nos arquivos.
Adotamos esse procedimento, embora fosse desejo de algumas famílias que seus sobrenomes fossem divulgados, essas manifestaram contentamento por serem participantes de nossa pesquisa. Também consideramos que seria importante expor os sobrenomes nos corpora, pois isso permitiria o estudo de antropônimos. No entanto, obedecemos às determinações do CEP e excluímos os nomes e sobrenomes. Permaneceram nos arquivos finais apenas as codificações de identificação mencionadas.