• Aucun résultat trouvé

Como exposto no Capítulo 4, houve dois momentos em relação à classificação automática dos mecanismos laríngeos. No primeiro, o objetivo era mostrar que é possível/viável realizar uma classificação automática utilizando apenas o sinal de voz. Isso implica as duas novidades em relação ao tratamento dos mecanismos laríngeos, que tinham sua classificação de forma manual, baseada no sinal EGG. Esses resultados estão descritos na Subseção 7.1.1. No segundo momento, buscou-se melhorar os resultados obtidos com essa classificação para poderem ser utilizados na detecção de frequência fundamental (objetivo principal de seu desenvolvimento). Assim, foram realizadas modificações e arranjos experimentais que puderam aumentar a taxa de acerto nessa classificação ou, de outra forma, habilitaram a aplicação da classificação de mecanismos laríngeos como base para a detecção de frequência. Apresentam-se esses resultados na Subseção 7.1.2.

7.1.1 Imagens baseadas na magnitude da STFT

7.1.1.1 Viabilidade da proposta

Como comentado, o objetivo do experimento inicial era verificar a possibilidade de se classificar um sinal entre os mecanismos laríngeos através apenas do sinal de áudio, mais especificamente, pela textura do espectrograma. Lembra-se que nesse contexto, as imagens foram obtidas por meio do cálculo da magnitude da STFT, as texturas foram descritas utilizando propriedades de Haralick e a classificação realizada por uma SVM, com parâmetros padrão da biblioteca empregada. Nesse cenário, obteve-se uma taxa média de acerto de 86,16%, com desvio padrão de 0,0452.

Esse resultado atesta a viabilidade de se fazer a classificação automática de mecanismos laríngeos, dado que mesmo sem uma parametrização empírica do classificador, a qual muitas vezes é necessária para se atingir uma boa acurácia, conseguiu-se uma taxa

superior a 80% (valor dependente do problema em questão). Ainda mais, também não se contou com a utilização de outros descritores de textura, o uso de características diretamente extraídas do sinal de áudio, i.e., que não são obtidos pela representação visual dada pelo espectrograma, ou ainda algum processo de extração ou seleção de características.

Detalhando a análise, obteve-se um pequeno desvio, visto que a diferença entre os maiores e menores valores não é acentuada. Esses achados também se verificam ao saber que o pior resultado de validação cruzada foi de 75,00% e o melhor de 97,30%. E, ainda mais, ao verificar que o primeiro quartil fica em 83,33%, enquanto que o terceiro, em 89,19%, ilustrando que a maior parte das taxas esteve neste intervalo. Outro dado interessante é que a moda e mediana são iguais a 86,11%, bem próximas da média, que é de 86,16%. Isso aponta certa tendência “central” das taxas.

É interessante notar que no pior cenário do experimento, a taxa de acerto foi bem superior ao que seria uma tentativa aleatória ao acaso, dado que nesse cenário, a taxa seria de 50% (que é o valor esperado na média de um evento aleatório com duas possibilidades); ou a uma abordagem baseada na probabilidade a priori entre as classes, ao se considerar que a distribuição existente na base de notas isoladas fosse a realidade do universo de emissões vocais (54,79%, ao se escolher sempre pela maioria). Isso é um bom indicativo que, de fato, o método proposto pode ser eficaz. Esses resultados foram publicados em [167].

7.1.1.2 Exploração dos parâmetros do classificador

Apesar de mostrar que era possível realizar a classificação de mecanismos laríngeos utilizando o espectrograma e descritores de textura, o resultado alcançado no primeiro experimento, descrito na Subseção anterior, motivou a avaliação de parâmetros dos classificadores a fim de se obter taxas de acerto mais elevadas. Nesse momento, adotou-se a exploração dos parâmetros dado que é sabido que eles são fatores determinantes no desempenho de um classificador. Ainda mais, também foi utilizado o k-NN (explicado na Subseção 4.2.3.2) como alternativa à SVM, no intuito de verificar se há uma diferença de comportamento significativa em função do classificador.

Dado que o k-NN apresenta atributos discretos ou categóricos, não há porque realizar vários níveis de exploração de parâmetros. Dessa forma, os parâmetros empregados para o k- NN são apresentados na Tabela 8.

Devido à enorme quantidade de valores devido à combinação entre os parâmetros, preferiu-se não mostrar todos esses resultados individualmente. Em vez disso, relata-se o resultado para a

melhor parametrização, de acordo com os experimentos realizados. Nesse contexto, a maior taxa atingida com o k-NN foi de 86,98%, com 7 vizinhos, distância de Manhattan e ponderação inversamente proporcional, independentemente do algoritmo usado para a computação da distância. A parametrização padrão do k-NN na biblioteca (5 vizinhos, distância Euclidiana, ponderação uniforme e algoritmo Auto) atingiu 85,34% e o mínimo foi de 77,27%. Logo, pode-se corroborar que a avaliação sobre os parâmetros do k-NN é importante para o desempenho, conforme esperado e reportado em outros trabalhos na literatura.

Tabela 8 – Parametrização para o k-NN. Parâmetro Valor

k 1; 3; 5; 7; 9; 11

Distância Manhattan; Euclidiana; Chebyshev; Minkowski Ponderação Uniforme; Inversamente proporcional Algoritmo Auto; Ball-Tree; Kd tree; Força bruta

Já no caso da SVM, excetuando a função de núcleo, os parâmetros têm valores contínuos e, portanto, torna-se necessário uma exploração mais profunda. A Tabela 9 mostra o conjunto de valores utilizados inicialmente para os testes com a SVM. O passo para a variação dos parâmetros internos das funções de núcleo e para o constante de regularização foi de um no expoente, ou, em outras palavras, variou sobre potências de 10.

Tabela 9 – Parametrização inicial para a SVM. Parâmetro Valor

Função de núcleo RBF, sigmoide Parâmetro interno 10-5 a 104 e 1/28

Constante de regularização 10-5 a 104

Nesse nível, duas configurações conseguiram os melhores resultados: as duas usaram núcleo RBF, e uma com desvio padrão igual a 10-4 e constante de regularização igual a 102,

enquanto que a outra, tinha desvio igual a 10-5, e constante de regularização igual a 103. Nos

dois casos, a taxa de acerto foi igual a 87,73%. Já no primeiro ponto, verifica-se a importância de se configurar os parâmetros, tal como ocorreu com o k-NN (como mostrado na Seção 7.1.1.1, o resultado foi de 86,16%, com o núcleo RBF, desvio igual a 1/28 e constante de regularização igual a 1). Além disso, é necessário aprofundar a análise, explorando-se os valores na vizinhança dos valores de parâmetros citados, a fim de determinar qual configuração experimental pode fornecer os melhores resultados.

Dessa forma, apresentam-se os valores de parâmetros utilizados nesse primeiro nível de exploração na Tabela 10 e na Tabela 11. Mantivemos a função sigmoide neste momento,

porque embora não tenha apresentado as taxas mais elevadas, elas ainda eram próximas às melhores do núcleo RBF e, assim, poderia haver alguma configuração interessante que passaria despercebida ao ignorar isso. Em ambas as explorações, o parâmetro interno agora varia de 0,1 (10-1) sobre o expoente da potência de 10. Em relação aos valores da constante de

regularização, na Tabela 10, o passo foi de 50, enquanto que, na Tabela 11, foi de 100.

Tabela 10 – Primeiro nível de exploração para a SVM (1). Parâmetro Valor

Função de núcleo RBF, sigmoide Parâmetro interno 10-4,5 a 10-3,5

Constante de regularização 50 a 250

Tabela 11 – Primeiro nível de exploração para a SVM (2). Parâmetro Valor

Função de núcleo RBF, sigmoide Parâmetro interno 10-5,5 a 10-4,5

Constante de regularização 800 a 1200

Para a exploração baseada nos valores mostrados na Tabela 10, o melhor resultado foi 88,35%, usando núcleo RBF, desvio padrão igual a 10-3,7 e constante de regularização igual a

150. Relata-se que essa foi a maior taxa atingida em todos os experimentos executados nesse contexto (imagens obtidas via magnitude da STFT). Para os valores mostrados na Tabela 11, a maior taxa de acerto foi de 88,28%, com o núcleo RBF, desvio igual a 10-4,9 e constante de

regularização igual a 1200. Ainda foi realizado um nível a mais de análise, restringindo mais ainda os valores na vizinhança do que foi encontrado na exploração anterior, contudo, não foram encontrados resultados melhores. No melhor caso, os resultados foram iguais aos já reportados acima e, portanto, decidiu-se não apresentar esses valores de parâmetros.

Logo, conclui-se que o melhor resultado atingido nesse ponto foi uma taxa de acerto de 88,35%, mostrando que a avaliação experimental é realmente importante, visto que foi possível aumentar a acurácia do classificador em 2,19 pontos percentuais (observando-se que, ao usar os valores padrão dos parâmetros, atingiu-se 86,16%). Também é importante destacar que mesmo um classificador mais simples como o k-NN pôde gerar resultados bem satisfatórios (86,98%) ao se configurar seus parâmetros de forma adequada.

Nesse ponto, pode-se afirmar que o objetivo inicial foi alcançado: mostrar que se pode classificar automaticamente os mecanismos laríngeos, sem utilizar o EGG, ou de outra forma, usando apenas o sinal de áudio como base, considerando o aspecto visual do espectrograma (reforçando essa ideia já mostrada na Subseção 7.1.1.1).

7.1.2 Imagens baseadas na densidade espectral

A partir dos resultados alcançados nos experimentos descritos na Subseção 7.1.1, buscou-se aumentar a referida taxa de acerto, para possibilitar a utilização da classificação proposta na detecção de frequência fundamental. Isso porque erros na classificação podem causar erros na detecção de frequência devido à configuração equivocada de parâmetros. Para isso, conforme relatado na Subseção 4.2.1, alterou-se a forma de criação da imagem do espectrograma e ainda se fez uma avaliação sobre os seus parâmetros para obter maior acurácia na classificação.

Assim, além de mudar a forma de cálculo da representação visual, realizaram-se experimentos na vizinhança dos valores empregados anteriormente. Dessa forma, primeiramente foram investigados os tamanhos de janela iguais a 128, 256, 512 e 1024. Depois, os valores do desvio da Gaussiana iguais a 1,5; 2; 2,5; 3; 3,5 e 4 já para o melhor tamanho de janela. Embora seja possível argumentar que um parâmetro possa ter efeito sobre o outro, entende-se que a busca por parâmetros feita dessa forma é válida, até porque ao observar as imagens geradas, percebe-se que o tamanho da janela influencia a imagem gerada de forma mais geral, enquanto que o desvio faz diferença nos detalhes mais finos. Ainda mais, outras pesquisas também adotam esse tipo de estratégia, conforme exposto em [66]. Nesse ponto, é importante destacar que não se variou o tipo de janela porque há muitas opções disponíveis, sem contar a variação dos parâmetros dessas funções, e assim, manteve-se a janela Gaussiana.

A parametrização que obteve o melhor resultado foi utilizando o tamanho de janela igual a 256 e desvio padrão igual a 2,5. Ao se comparar com os valores empregados inicialmente, vê-se que os dois valores foram diferentes, sem contar, a própria modificação na representação de imagem, no que se refere à utilização da densidade espectral. Mais especificamente, com todas essas atualizações, a taxa de acerto atingida foi de 94,87%, quando não foi usado nenhum mecanismo de rejeição, isto é, ou as amostras são consideradas como acerto ou como erro. A exploração sobre os valores dos parâmetros da SVM foi realizada conforme mostra a Tabela 9 e a configuração que obteve esse resultado foi com o núcleo RBF, desvio padrão igual a 10-3 e constante de regularização igual a 102.

Assim, a Tabela 12 mostra os resultados médios para as taxas de acerto, rejeição e erro, além dos respectivos desvios (entre parênteses) para as repetições de classificação (procedimento explicado na Subseção 6.2.1.3). Todos esses resultados se referem ao classificador configurado como descrito no parágrafo anterior (melhor resultado). A taxa de

erro para a classificação sem limiar de rejeição não apresenta desvio padrão porque ela foi obtida como o complemento da taxa de acerto média.

Como indicam os valores da Tabela 12, o uso de um procedimento de rejeição baseado em limiar reduz a taxa de erro com o custo de também reduzir a taxa de acerto. Claro que, na situação ideal ou no melhor caso, seria bom se apenas o erro diminuísse enquanto que o acerto se mantivesse, porém, na prática, isso não ocorre. Uma análise mais detalhada sobre a variação das taxas de acerto e de erro para os limiares avaliados permite verificar que a taxa de acerto decresce mais do que a taxa de erro. Isso significa que é possível estarem sendo descartadas mais classificações corretas do que incorretas. Essa realidade se relaciona diretamente com a probabilidade da predição dada pelo classificador.

Tabela 12 – Taxas da classificação para o melhor classificador dos experimentos. Classificador Acerto Rejeição Erro

Sem limiar 94,87 (3,46) - 5,13 Limiar = 0,60 92,47 (4,16) 3,63 (3,07) 3,90 (3,09) Limiar = 0,65 90,62 (4,83) 6,30 (4,12) 3,07 (2,91) Limiar = 0,70 88,36 (5,14) 9,12 (4,87) 2,53 (2,42) Limiar = 0,75 85,89 (5,85) 11,78 (6,04) 2,32 (2,35)

Para diminuir a quantidade de exemplos corretamente classificados que são descartados, seria necessário ajustar essas probabilidades, tornando-as mais confiáveis. Nesse sentido, seria possível alterar o mecanismo de atribuição dessas probabilidades no processo de treinamento do classificador ou aplicar alguma estratégia de pós-processamento como análises sobre a curva ROC30 (Receiver Operating Characteristic – Característica de

Operação do Receptor). A avaliação dessas estratégias não foi realizada nesse estudo porque o maior objetivo é a aplicação sobre a detecção de frequência fundamental e não necessariamente a maior taxa de acerto possível (embora inicialmente ela sempre seja desejada), e julgou-se que o nível alcançado nesse experimento é o suficiente para esse fim.

Documents relatifs