Formule de l'information mutuelle - : Extraction des relations 1 Introduction

Partie III : Extraction des relations 1 Introduction

Équation 5: Formule de l'information mutuelle

Para a investigação das características prosódicas do Tópico e levantamento de valores de referência para os parâmetros acústicos relevantes (F0, duração silábica, intensidade) extraiu-se uma amostra do minicorpus sobre a qual foram realizadas as análises.

Os passos metodológicos para a seleção da amostra foram os seguintes:

1) Identificação de todos os enunciados com Tópico do minicorpus, a partir da DB IPIC.

2) Tabulação dos dados em uma planilha.

3) Extração dos enunciados concluídos com Tópico simples que não apresentassem sobreposição de fala (amostra 1).

4) A partir dos enunciados da amostra 1, extração de uma amostra aleatória que compreende 1/3 dos Tópicos de cada texto (amostra 2), respeitando a

46 String é um termo utilizado em computação para se referir a dados armazenados como caracteres com uma codificação específica. A codificação de caracteres padrão utilizada no C-ORAL-BRASIL é a UTF-8.

47 Um script é uma sequência de comandos de programação que permite executar tarefas dentro de aplicativos, ambientes ou sistemas computacionais específicos. Todos os scripts utilizados neste trabalho foram elaborados por mim.

proporcionalidade entre vozes masculinas e femininas. No caso de algum dos enunciados apresentar ruído de fundo ou eco demasiado, que impossibilitasse a análise, esse era então substituído por outro enunciado selecionado aleatoriamente. Nesses casos, quando necessário para completar a quantidade de Tópicos previamente estabelecida para determinado texto, recorreu-se a enunciados com Tópico complexo, do qual foi extraída apenas uma unidade de Tópico.

A amostra 2 foi aquela utilizada para a pesquisa sobre as propriedades prosódicas do Tópico. Essa amostra vem detalhada na Tabela 7.4.

Tabela 7.4 - Amostra de enunciados utilizada para a análise das características prosódicas do TOP

Gravação Quantidade de TOP Unidade de alinhamento no WinPitch

Total M F Total 110 55 55 bfamcv01 4 4 0 [39], [144], [166], [173] bfamcv02 4 0 4 [102], [207], [298], [333] bfamcv03 2 2 0 [41], [91] bfamcv04 2 0 2 [233], [341] bfamdl01 2 0 2 [145], [329] bfamdl02 8 5 3 [13], [14], [53], [73], [155], [158], [161], [254] bfamdl03 6 3 3 [11], [59], [66], [148], [154], [257] bfamdl04 4 0 4 [140], [141], [153], [242] bfamdl05 6 4 2 [58], [112], [174], [335], [359], [398] bfammn01 4 4 0 [3], [7], [19], [34] bfammn02 8 3 5 [1], [3], [11], [29], [47], [49], [53], [88] bfammn03 6 6 0 [2], [20], [92], [111], [124], [125] bfammn04 8 0 8 [26], [47], [110], [171], [142], [144], [148], [166] bfammn05 8 0 8 [1], [4], [17], [33], [34], [42], [92], [141-143] bfammn06 6 6 0 [8], [11], [24], [35], [53], [75] bpubcv01 10 3 7 [356], [17], [21], [27], [57], [108], [220], [225], [242], [256] bpubcv02 4 4 0 [16], [34], [198], [207] bpubdl01 6 6 0 [22], [71], [99], [100], [170], [258] bpubdl02 6 5 1 [64], [105], [114], [129], [135], 257] bpubmn01 6 0 6 [13], [29], [52], [72], [100], [126]

Após a seleção da amostra, foram realizadas as análises dos Tópicos através do software Praat, conforme os seguintes passos:

1) Identificação dos movimentos de F0 perceptualmente relevantes dos Tópicos da amostra 2 e identificação do núcleo funcional.

2) Análise e extração, para cada sílaba dos Tópicos da amostra 2, dos valores dos seguintes parâmetros:

a) Frequência fundamental (em Hz) média, máxima, mínima, inicial e final. b) Duração silábica (em segundos);

c) Intensidade (em dB).

Para a realização do passo 1, utilizou-se o mesmo procedimento adotado por Rocha (2012) em seu estudo sobre as formas prosódicas do Tópico em PE, que, por sua vez, baseou- se na metodologia empregada na análise prosódica das unidades de valor ilocucionário realizada para o italiano por Firenzuoli (2003) e por Firenzuoli e Signorini (2002) para a descrição das formas prosódicas do Tópico em Italiano. Esse procedimento evolve:

a) Manipulação dos movimentos da F0, de modo a eliminar movimentos perceptualmente irrelevantes;

b) Geração da ressíntese do áudio em que os movimentos de F0 foram eliminados;

c) Comparação do áudio ressintetizado com o áudio original e identificação dos movimentos de F0 que, se eliminados, não produzem diferenças de percepção em relação ao original (identificação dos movimentos de F0 não relevantes para a identificação da função informacional de Tópico); d) Identificação das porções de áudio necessárias para que a unidade

informacional mantenha a função de Tópico (núcleo)48_{e forme um padrão}

entonacional com a unidade de comentário do mesmo enunciado.

O procedimento para a identificação do núcleo da unidade de Tópico é realizado através da prova de equivalência perceptiva entre uma versão manipulada da curva de F0 e o áudio original. Assume-se que a eliminação de movimentos de F0 não relevantes do ponto de vista perceptual não produz diferença perceptível em relação ao áudio original. Isso permite a estilização (simplificação) da curva de F0 a um conjunto de movimentos mínimos. Quando, em um par de unidades prosódicas, uma delas é julgada como uma ótima imitação da outra, pode-se dizer que ambas unidades são perceptualmente equivalentes. A curva de F0 manipulada resultante, reduzida ao menor número de movimentos possível e que se mantém perceptualmente equivalente à original, é chamada de close copy (HART; COLLIER; COHEN, 1990).

48 A ressíntese com o mínimo de porções suficientes que a unidade seja percebida como Tópico contém exclusivamente o núcleo (ou os seminúcleos) da unidade entonacional (ROCHA, 2012).

Manipulações nos movimentos de F0 podem gerar diversos resultados do ponto de vista perceptual. Conforme detalhado em Rocha (2012) e retomado aqui, alterações na curva melódica de uma unidade de Tópico pode resultar em uma versão que:

1) Mantém integralmente a forma entonacional – a unidade original e a unidade manipulada são percebidas como perfeitamente análogas; o falante reconhece o Tópico ressintetizado como totalmente equivalente ao original;

2) Mantém a forma entonacional – a unidade entonacional original e a unidade ressintetizada são percebidas como diferentes, porém o falante reconhece na unidade manipulada um Tópico do mesmo tipo (entonacional) que o Tópico original.

3) Altera a forma entonacional (forma anômala) – a unidade original e a unidade ressintetizada são percebidas como diferentes; o falante reconhece a unidade como um Tópico semelhante ao original, porém realizado de modo anormal. 4) Muda a forma entonacional (dúvida) – a unidade entonacional e a unidade

ressintetizada são percebidas como diferentes; os parâmetros prosódicos da unidade manipulada podem ser identificados, mas de forma ambígua.

5) Muda a forma entonacional – a unidade original e a unidade ressintetizada são percebidas como diferentes; a unidade manipulada é interpretada como um Tópico de tipo diferente do original, ou como uma unidade com outro tipo de função informacional.

A identificação das formas prosódicas do Tópico49_{foi realizada a partir de close} copies que apresentassem as características de I ou II acima. As manipulações que causassem

alteração significativa na percepção do Tópico (casos III, IV e V acima) foram desconsideradas.

49 Conforme apresentado no Capítulo 6, o Tópico pode apresentar algumas variações na sua realização que, no entanto, não causam a irreconhecibilidade da unidade como possuindo a função de Tópico. Estas configurações diferentes de parâmetros prosódicos que, no entanto, causam o mesmo efeito do ponto de vista informacional são chamadas de “formas prosódicas”.

Este capítulo contém os resultados referentes à unidade informacional Tópico na fala espontânea brasileira em sua variedade mineira, que é aquela representada na amostra utilizada neste estudo. Na seção 8.1, são apresentados os resultados da distribuição da unidade no minicorpus. A seção 8.2 descreve as características morfossintáticas da unidade, elencando alguns exemplos representativos, bem como traz uma discussão sobre as propriedades semânticas da unidade. A seção 8.3 é dedicada à análise dos Tópicos complexos e às Listas de Tópico.

Dans le document Une plateforme pour la construction d’ontologie en arabe : Extraction des termes et des relations à partir de textes (Application sur le Saint Coran (Page 106-110)