Extraction et traitement du signal EXAFS - Spectroscopie d’Absorption des Rayons X (SAX)

II. TECHNIQUES ET PROTOCOLES EXPERIMENTAUX

II.2. T ECHNIQUES UTILISEES

II.2.6. Spectroscopie d’Absorption des Rayons X (SAX)

II.2.6.4. Extraction et traitement du signal EXAFS

O primeiro sistema de conversão grafema-fone apresentado baseia-se na combinação de um conjunto de regras - definidas manualmente e implementadas através de FSTs - com um método de aprendizagem automática (TBL). Esta estratégia viabilizou o desenvolvimento rápido de um primeiro sistema G2P para o PE, dando assim seguimento a um dos objectivos enunciados na Introdução a este trabalho.

Embora o trabalho de aperfeiçoamento e definição de novas regras linguísticas apresentasse margem para mais desenvolvimentos - nomeadamente no que respeita à atribuição do acento lexical - a tarefa veio a revelar-se bastante complexa e demorada, em grande parte devido ao problema de aplicação sequencial das regras. A solução encontrada passou, então, por corrigir as regras manuais através de um método de auto-aprendizagem (TBL), seguindo as propostas de Bouma (2000). Uma das principais vantagens do TBL reside na capacidade de atingir desempenhos elevados, usando um

corpus de treino relativamente pequeno (Bouma, 2000), o que efectivamente se veio a comprovar

nos nossos resultados: como vimos, o recurso ao TBL conduziu a um aumento considerável da taxa de acerto, tanto a nível das palavras como dos fones. Também aqui haveria espaço para melhorias, sendo, contudo, necessário recorrer a um corpus de dimensão mais alargada, de que, actualmente, não dispomos.

Embora as regras manuais sejam consideradas a melhor estratégia para resolver o problema da conversão grafema-fone em línguas com ortografias de base fonológica, como é o caso do portu- guês, “no set of rules, no matter how extensive and complicated, can ever describe or account for the totality of any individual’s or group’s language” (Hall, 1972, p.42). É com base neste pressuposto, que, nos últimos anos, a abordagem linguística tem vindo a perder terreno para as técnicas data-

driven, cujos resultados suplantam, pelo menos em algumas línguas (e.g. inglês) (Damper et alii,

1999), o desempenho dos métodos fundados em regras.

Tendo presentes estes argumentos, enveredámos, numa segunda fase, pela exploração de outros métodos automáticos - para além do TBL - isolados ou combinados entre si, procurando igual- mente avaliar o impacto da utilização de informação silábica sobre o desempenho global do sistema.

Comparando o desempenho dos vários sistemas implementados e testados, conclui-se que o método WTA - resultado da combinação de dois sistemas de aprendizagem automática com o sistema de regras linguísticas - é o que apresenta resultados mais interessantes (WER de15.75 % no teste 1 e MNLD igual a0.025 no teste 2). Considerando apenas os sistemas individuais, os melhores resultados pertencem ao MBL (PER de3.76 %, WER de 21.63 % e MNLD igual a 0.043 %, no teste 1).

Em todos os sistemas G2P com desempenho superior, os 10 erros mais frequentes dizem respeito à transcrição das vogais <e>, <o> e, algumas vezes, <a> (teste 1). No teste 2, evidenciam-se as mesmas dificuldades em lidar com as vogais, para além de problemas com a conversão do <x> e do <s>.

À semelhança do que acontece para outras línguas - e.g. inglês (Marchand & Damper, 2007; Bartlett et alii, 2008), francês (Beringer, 2004) e alemão (Libossek & Schiel, 2000) - também no caso do PE, o desempenho dos sistemas G2P aumenta significativamente com a integração de informação silábica. Uma outra via a explorar, tendo em vista o aumento do desempenho deste tipo de sistemas poderia passar por incorporar também informação morfológica (Reichel & Schiel, 2005).

Para além da sílaba, também a dimensão do corpus de treino parece ter uma influência de- terminante nos resultados. De acordo com estes, o alargamento do corpus de treino tem sempre como

consequência uma diminuição da percentagem de erro, tanto ao nível dos fones como das palavras. É no tamanho do corpus de treino (e de teste) que reside também uma das maiores fragili- dades deste trabalho. Como é sabido, o desenvolvimento de métodos data-driven assenta em corpora de treino de grandes dimensões - que funcionam como modelo para a aprendizagem - mas que no caso do PE, não estão publicamente disponíveis. O desenvolvimento de recursos deste tipo é uma tarefa muito morosa e dispendiosa do ponto de vista material e humano, apenas ao alcance de uma grande equipa. Face a este problema, a solução passou pela criação de um pequeno corpus de treino próprio, lançando mão de uma estratégia que começou por ser totalmente manual, passando depois a automática - através da aplicação do MBL - com posterior verificação manual. Apesar de todos os esforços desenvolvidos, a dimensão deste corpus está ainda longe de ser a ideal, o que significa que os nossos sistemas automáticos podem ter potencialmente desempenhos superiores, desde que se utilize para treino um corpus mais alargado.

Uma forma eficaz e rápida de ampliar este corpus - ou até de produzir um “gold standard”

corpus para a língua portuguesa, para utilização em tarefas de processamento de linguagem natural -

poderá mesmo passar por aplicar algoritmos de conversão grafema-fone automáticos, com correcção manual a posteriori, em vez da tradicional anotação manual.

Também no que respeita ao corpus de teste se reconhecem algumas limitações, já menciona- das anteriormente a propósito da avaliação dos sistemas de silabificação automática. As dificuldades de acesso a um corpus standard para teste dos sistemas, motivou o recurso a dois corpora de teste, também desenvolvido por nós, o que, de algum modo, compromete a objectividade da avaliação.

Não obstante as dificuldades supra-mencionadas, julgamos ter cumprido minimamente os objectivos a que nos propusémos ao desenvolver um conjunto de sistemas G2P para o PE, com um desempenho razoável, pelo menos para as nossas actuais necessidades.

Cap´ıtulo

4

Modelo Gestual para o Português Europeu

The tongue, the lips articulate; the throat With soft vibration modulates the note.

Darwin, The Temple of Nature, Canto III, l.367

O presente capítulo ocupar-se-á da caracterização gestual dos vários sons do PE, de modo a que cada fone obtido à saída do módulo de transcrição automática possa ter uma correspondência com um conjunto de gestos articulatórios adequados para o português.

Depois de uma breve descrição do funcionamento do modelo gestual do TADA - que, como vimos no capítulo 2 (secção 2.2.5), se divide em dois componentes distintos, o Syllable structure-

based gestural coupling model, que gera um coupling graph, especificando os gestos associados aos

segmentos de entrada e as relações de coordenação intergestual, e o Coupled oscillator model of inter-

gestural coordination, que calcula os intervalos de activação de cada um dos gestos e gera a respectiva

pauta gestual - procederemos à apresentação da metodologia geral que presidiu à definição dos gestos. Esta definição será, sobretudo, suportada por dados de produção, nomeadamente informação obtida através de ressonância magnética. Sempre que se revelar necessário, e em virtude da escassez de dados articulatórios relativos ao PE, serão tidos em conta dados acústicos - já que a partir deles podem ser feitas inferências sobre a configuração do tracto vocal - ou mesmo estudos realizados para outras línguas.

As configurações gestuais para cada um dos segmentos do PE serão apresentadas e funda- mentadas, em secções distintas, começando pelas vogais e passando pelas várias classes de consoan- tes. Sempre que se revelar necessário, serão ainda fornecidas informações adicionais sobre alterações aos padrões de coordenação pré-definidos no TADA.

A avaliação das propostas gestuais - e de todas as modificações introduzidas nos parâmetros de entrada do TADA - decorreu em duas fases distintas: 1) apreciação informal, pelo investigador, da qualidade do som gerado, a partir da configuração gestual proposta; 2) teste de inteligibilidade com

vários sujeitos. A última parte do capítulo centrar-se-á na descrição da construção e aplicação deste último teste perceptivo, bem como na análise e discussão dos resultados obtidos.

4.1 Modelo gestual no TADA

No âmbito do sistema TADA, a geração automática do coupling graph associado ao texto de entrada tem duas componentes distintas: 1) criação de uma lista de gestos associados ao input, representados em termos de parâmetros dinâmicos que caracterizam a variável do tracto, peso relativo dos articu- ladores e blending; 2) especificação da coordenação intergestual entre os osciladores associados aos gestos, com base na estrurura silábica.

O funcionamento destes dois componentes será descrito, sumariamente, em seguida.

Dans le document THESE DE DOCTORAT Présentée par (Page 49-162)