C. Client WebMDS
3. Introduction en traitement d’images
A amostra para o teste de etiquetagem consistiu de dois fragmentos de transcrições previamente alinhadas ao som através do software WinPitch (MARTIN, 2004): um referente a um diálogo do qual foram extraídos os primeiros 120 enunciados; e outro referente a um monólogo do qual foram extraídos os primeiros 70 enunciados.
Realizaram o teste quatro anotadores com aproximadamente o mesmo nível de treinamento e experiência na etiquetagem informacional, com exceção de um, que apresentava um pouco menos de experiência. Os anotadores deveriam atribuir etiquetas informacionais para cada unidade entonacional previamente identificada nas transcrições. Eles não puderam realizar consultas entre si e tiveram um prazo de três dias para completar a tarefa. O acordo foi avaliado pelo teste Kappa (FLEISS, 1971), realizado com base na etiquetagem de todo o enunciado, bem como por unidade informacional.
4.3.2 Resultados
O resultado na análise geral por enunciado (considerando-se conjuntamente tanto os dados do diálogo quanto do monólogo) pode ser considerado bom, com um Kappa geral por enunciado igual a 0,62. O resultado do acordo, se compararmos, não o enunciado como um todo, mas cada unidade entonacional, também pode ser considerado muito bom (0,73), como mostra a Tabela 4.9. Isso indica que os desacordos entre os anotadores são pontuais e restritos a poucas unidades informacionais.
Tabela 4.9 - Acordo entre anotadores da etiquetagem informacional
Tipo de cálculo Geral Diálogo Monólogo
Kappa por enunciado 0,62 0,73 0,45
Kappa por unidade entonacional 0,73 0,70 0,72
Na Tabela 4.10, apresenta-se o detalhamento dos resultados de acordo com o tipo de interação (diálogo ou monólogo). Diferenciam-se aqui os resultados obtidos no acordo total por enunciado e no acordo por enunciado complexo. Os enunciados complexos são aqueles que realmente devem servir de parâmetro para a avaliação do resultado do acordo, visto que são aqueles em que aparecem duas ou mais unidades informacionais diferentes.
Tabela 4.10 - Comparativo do acordo entre anotadores na etiquetagem informacional quanto ao total de enunciados e quanto aos enunciados complexos
Tipo de cálculo Diálogo Monólogo
Kappa por enunciado 0,73 0,45
Kappa por enunciado complexo 0,49 0,34
Considerando os valores por enunciado, o acordo no diálogo é muito bom, ao passo que no monológico é moderado. Naturalmente, o diálogo apresenta uma quantidade maior de enunciados simples. Enunciados simples elevam o acordo pois não há dúvida possível quanto a etiquetagem. Quando se excluem os enunciados simples, vê-se que o grau de acordo cai, e o resultado obtido no diálogo fica mais próximo daquele observado no monólogo.
A princípio, formulou-se a hipótese de que isso fosse devido a problemas com a identificação de unidades dialógicas. A proporção de unidades dialógicas em diálogos é sempre maior do que em monólogos, o que explicaria a grande diferença entre o resultado por enunciado e por unidade entonacional nessa tipologia. Além disso, muitas unidades dialógicas carecem de uma especificação mais precisa quanto às suas características prosódicas, além de apresentarem definições pouco operacionais. Contudo, uma análise excluindo as diferenças entre essas unidades não resultou em melhora tão significativa dos resultados quando imaginava-se.
Tabela 4.11 - Acordo na etiquetagem informacional no diálogo por enunciado complexo
Tipo de cálculo Valor do Kappa
Com diferenciação das unidades dialógicas 0,49
Assim, resta saber se são as unidades textuais aquelas sobre as quais os anotadores apresentam mais inconsistência na etiquetagem. Através do detalhamento do acordo por tipo de unidade informacional em comparação à quantidade de vezes que cada unidade foi utilizada pelos anotadores no diálogo, conclui-se que o maior problema está nas unidades de Comentários Múltiplos (CMM) e de Comentários Ligados (COB). As unidades dialógicas, por sua vez, apresentaram alto grau de acordo, conforme se pode ver pelos resultados apresentados na Tabela 4.12.
Tabela 4.12 - Acordo por unidade informacional no Diálogo
Etiqueta Frequência % Kappa
Total 684 100% =COM= 398 58,19% 0,85 =CMM= 89 13,01% 0,42 =EMP= 40 5,85% 0,95 =PHA= 30 4,39% 0,74 =SCA= 27 3,95% 0,70 =COB= 25 3,65% 0,32 =EXP= 23 3,36% 0,63 =ALL= 13 1,90% 0,77 =CNT= 9 1,32% 0,66 =DCT= 5 0,73% 0,80 =INP= 5 0,73% 0,40 =APC= 4 0,58% 0,50 =TOP= 4 0,58% 1,00 =PAR= 3 0,44% 0,67 =UNC= 3 0,44% 0,22 =i-COM= 1 0,15% 0,00 =INT= 1 0,15% 0
O CMM é a segunda unidade mais utilizada, entretanto, o acordo quanto ao seu uso é apenas moderado. A maior dificuldade parece ser estabelecer a diferença, nesta ordem, entre: CMM x COM, CMM x COB e CMM x Unidades Dialógicas (PHA, EXP, INP).
Em relação à unidade de Tópico, conforme será detalhado no capítulo 8, não é muito comum em PB o uso de Tópicos (e demais unidades textuais, com exceção do Introdutor Locutivo) em diálogos. No fragmento de diálogo selecionado para o teste, constavam apenas 4 Tópicos, todos identificados pelos quatro anotadores, daí o resultado do acordo ser igual a 1,0. Entretanto, devido ao baixíssimo número de Tópicos no fragmento, esse valor de acordo não pode ser tomado como referência para a unidade.
No monólogo, as unidades problemáticas também são as textuais, como pode ser observado na Tabela 4.13.
Tabela 4.13 - Acordo por unidade informacional no Monólogo
Etiqueta Frequência % Kappa
Total 1488 100% =COB= 271 18,21% 0,63 =SCA= 256 17,20% 0,75 =COM= 236 15,86% 0,90 =EMP= 166 11,16% 0,94 =TOP= 137 9,21% 0,68 =PHA= 116 7,80% 0,86 =CMM= 57 3,83% 0,26 =TMT= 41 2,76% 0,88 =INT= 29 1,95% 0,82 =PAR= 29 1,95% 0,45 =DCT= 27 1,81% 0,66 =i-COB= 19 1,28% 0,45 =i-COM= 12 0,81% 0,44 =APT= 8 0,54% 0,58 =ALL= 7 0,47% 0,86 =INP= 6 0,40% 0,33 =APC= 5 0,34% 0,53 =i-PAR= 4 0,27% 0,50 =PAR-1= 3 0,20% 0,22 =EXP= 2 0,13% 0,00 =UNC= 2 0,13% 0,00 =CNT= 1 0,07% 0,00 =i-CMM= 1 0,07% 0,00 =i-TOP= 1 0,07% 0,00
Especialmente, as unidades que apresentaram maior desacordo são o CMM e o PAR e, em menor medida, também o COB. As unidades CMM, e COB foram utilizadas em desacordo num total de 29 ocorrências, o que é aproximadamente metade das vezes em que cada unidade de CMM foi utilizada pelos anotadores. Em 21 das ocorrências, houve desacordo em relação às unidades de TOP e COB. Em menor proporção, notou-se um baixo acordo para a unidade de INP de modo geral. A unidade de COM, como esperado, mostra um alto acordo entre os anotadores, independente do tipo de interação.
Considerando-se o Tópico, o resultado obtido pelo teste Kappa igual a 0,63 é considerado um bom grau de acordo, indicando que a unidade de Tópico é reconhecida por etiquetadores diferentes bem acima do que seria esperado pelo acaso.
As análises realizadas permitem afirmar que, do ponto de vista qualitativo, os dados do TOP são adequados para o estudo aqui desenvolvido, sendo representativos, tanto do ponto de vista da unidade informacional em estudo quanto das tipologias interacionais representadas no corpus (diálogos, monólogos e conversações).
Os resultados apresentados neste capítulo referem-se a medidas que caracterizam a amostra da pesquisa. Essas medidas embasam uma discussão sobre características das tipologias textuais presentes no corpus, e, além disso, fundamentam a análise dos dados especificamente relacionados ao Tópico, apresentados no Capítulo 8.
A seção 5.1 traz algumas características da fala espontânea em termos da distribuição de turnos, enunciados (concluídos e interrompidos) e unidades entonacionais (concluídas e interrompidas) em relação a cada tipologia interacional da amostra: conversações, diálogos e monólogos. A seção 5.2 apresenta um detalhamento sobre a estruturação dos enunciados, destacando a participação de unidades informacionais de tipo textual e dialógico na composição de enunciados complexos nas tipologias interacionais da amostra. Na seção 5.3, sumarizam-se os principais resultados apresentados no capítulo.