• Aucun résultat trouvé

Resentment, blame, and injustice

Dans le document Ressentiment : an anatomy (Page 20-28)

2 W HAT IS RESENTMENT ?

2.1 A definition of resentment (and indignation)

2.1.2 Resentment, blame, and injustice

Para cada música da base foi calculada a F-Measure entre o refrão anotado e o refrão retornado pelo método, conforme o cálculo descrito na seção 4.6, para cada heurística ou combinação de heurísticas. Ao fim do processamento, foi calculada a F-Measure média de cada heurística ou combinação de heurísticas. No caso da combinação de heurísticas, o score retornado pelo classificador é a soma dos scores retornados pelas heurísticas combinadas, todas com peso 1, sendo o score final normalizado em relação aos demais segmentos classificados, para que também seja um valor entre 0 e 1.

Para uma melhor compreensão da qualidade dos classificadores de cada heurística, as taxas de acerto obtidas por cada heurística foram comparadas com os resultados obtidos pelo caso ótimo e com os obtidos pelo caso randômico. O caso ótimo foi implementado como uma rotina que recebe informação a posteriori das marcações da base de dados para simular uma heurística que sempre acerta o segmento ótimo, aquele que maximiza o valor da F-Measure para uma música. Já o caso randômico foi implementado como uma função de escolha aleatória, representando assim o pior caso, que é a escolha sem critérios de um segmento qualquer dentre os extraídos da matriz de similaridade na etapa de Extração das Repetições, descrita na seção 6.3.

Os primeiros testes contemplaram a avaliação do tempo de resposta e da taxa de acertos para várias configurações da solução, onde foram testadas diversas combinações de valores dos parâmetros que regulam cada etapa do método, tendo sido identificadas as combinações que mais se destacaram na base de dados TUT. Os parâmetros da primeira, segunda e terceira etapas do método (seções 6.1, 6.2 e 6.3) foram variados em testes individuais, sendo observada a variação do percentual de acertos e do tempo de resposta em função desta variação de parâmetros. Em cada teste, os parâmetros de uma etapa eram variados enquanto os valores dos parâmetros nas demais etapas permaneciam com valor fixo.

Após os testes de ajustes de parâmetros, a configuração da solução que obteve melhor relação entre a taxa de acertos e o tempo de resposta foi escolhida para o teste da hipótese, que consistiu em avaliar o método proposto na base pública TUT e, posteriormente, na base percussiva, medindo-se a degeneração da taxa de acertos em função da mudança do tipo de música processado.

Com a finalidade de realizar uma comparação com os métodos que exploram o domínio da frequência testes paralelos foram realizados, onde o método proposto foi modificado substituindo-se a sua feature (Envoltória) por Chroma Vector, construído como nos trabalhos de Goto e Eronen, a partir do espectro obtido por FFT (seção 4.2). A métrica de similaridade do método proposto (Correlação), usada na construção da Matriz de Similaridade, foi substituída por Distância Euclidiana, conforme usada nos métodos de Goto e Eronen para construir a Matriz ou Triângulo de Distâncias (seção 4.3). Assim como nos testes do método proposto, esta versão modificada usando FFT também passou por testes de combinações dos parâmetros das 3 primeiras etapas em busca da melhor configuração, e por testes de medição da degeneração da taxa de acertos em função da mudança do processamento da base TUT para a base percussiva.

7.3

Os Resultados Obtidos

Esta seção mostra os resultados dos experimentos realizados. Nas tabelas mostradas nesta seção, as heurísticas avaliadas são identificadas por letras, onde R é a Randômica, O é o Caso Ótimo, H1 é Grau de Correspondência, H2 é Similaridade Média, H3 é Último Segmento e H4 é Localização da Repetição, conforme definidas na seção 6.4. As combinações de heurísticas são representadas pela letra H seguida dos números referentes a cada heurística, onde H123, por exemplo, significa a combinação das heurísticas: Grau de Correspondência, Similaridade Média e Último Segmento.

Para os testes de tempo de resposta realizados, vale ressaltar que os resultados obtidos são os mesmos que seriam obtidos em qualquer outra base de dados, pois o tempo de resposta no método é função apenas do tamanho do sinal de áudio e de alguns dos parâmetros escolhidos nas etapas de Extração de Envoltória, Construção da Matriz de Similaridade e Extração de Repetições, conforme será visto mais adiante.

Nos testes da primeira etapa da abordagem deste trabalho, a Extração de Envoltória, descrita na seção 6.1, o tamanho da janela deslizante e deslocamento da janela foram sempre mantidos com valores iguais, pois um deslocamento menor que a janela poderia levar à repetição de um mesmo valor máximo em duas ou mais amostras consecutivas no sinal de envoltória construído, e um deslocamento maior que a janela levaria ao descarte de pequenos fragmentos do sinal na extração da envoltória.

Na avaliação do tempo de resposta, os valores do deslocamento foram variados de 1ms a 100ms na execução de uma música de 4 minutos, onde foi verificado que o tempo de resposta cai exponencialmente com o aumento do deslocamento, convergindo para 6s e atingindo uma estabilidade razoável a partir de 30ms aproximadamente. Os resultados para o tempo de resposta são apresentados no gráfico da Figura 7.1, onde o eixo horizontal tem o valor do deslocamento da janela (e do tamanho da janela também) e o eixo vertical traz o tempo de resposta do método.

Figura 7.1: Deslocamento (ms) x Tempo de resposta (s) na Extração de Envoltória.

Quanto aos acertos, os parâmetros foram variados de 5ms em 5ms dentro do range de 10ms a 100ms, sendo avaliada a variação da taxa de acertos em função da variação do tamanho Deslocamento (ms) x Tempo de resposta (s) na Extração de Envoltória.da janela e do deslocamento. Os tamanhos de janela abaixo de 10ms foram descartados por causa do alto tempo de resposta. Estes testes foram realizados utilizando o álbum Revolver (1966) dos Beatles, escolhido aleatoriamente.

Os resultados mostram que, de um modo geral, as alterações foram relativamente baixas nas taxas de acertos de um valor para outro de deslocamento e tamanho da janela para cada heurística individualmente, conforme mostra a Tabela 1 do Apêndice. As taxas de acertos das heurísticas ficaram entre 60% e 80%, com exceção da h3, que teve taxas de acertos mais baixas que as demais, enquanto o caso ótimo ficou sempre próximo de 91%.

O gráfico da Figura 7.2 traz a média das taxas de acertos de cada valor de desloca- mento da janela adotado, considerando todas as heurísticas exceto a randômica, no passo de Extração de Envoltória. O deslocamento de 65ms mostrou-se levemente melhor em relação aos demais, para o álbum Revolver dos Beatles.

Figura 7.2: Taxa média de acertos (%) de cada deslocamento da janela, na Extração

Nos testes com variação de parâmetros da etapa de Construção da Matriz de Similari- dade, o deslocamento da janela deslizante, que exerce forte influência no custo das etapas restantes do método, foi variado entre 0,1s e 1,3s, para análise do tempo de resposta da solução em função de sua variação, enquanto o tamanho da janela neste teste foi sempre o dobro do tamanho do deslocamento.

Assim como nos testes de tempo de resposta da etapa anterior da solução, verifica-se que o custo da solução cai exponencialmente com o aumento do valor do deslocamento da janela, conforme apresentado na Figura 7.3.

Comparando com o tempo de resposta médio dos métodos descritos no capítulo 4, que é de aproximadamente 10 segundos para uma música de 3 a 4 minutos, apenas os valores de deslocamento de janela acima de 0,7s são viáveis.

Figura 7.3: Deslocamento (s) x tempo de resposta (s/4min) na Construção da Matriz de

Similaridade.

Para a análise da variação da taxa de acertos, o deslocamento da janela foi testado para os valores 0,25s, 0,5s, 0,75s, 1s e 1,25s, enquanto o tamanho da janela assumiu os valores de uma, duas e quatro vezes o tamanho do deslocamento em cada teste. Estes testes também foram realizados utilizando o álbum Revolver dos Beatles, e seus resultados encontram-se na Tabela 2 do Apêndice.

Observando o gráfico da Figura 7.4 que traz a taxa média de acertos por tamanho de janela e valor de deslocamento, verifica-se que usar um deslocamento de 0,25s não alcança uma taxa média de acertos boa em relação aos demais valores de deslocamento.

Figura 7.4: Taxa média de acertos (%) de cada deslocamento e tamanho da janela, na

Construção da Matriz de Similaridade.

Além disso, observando a Figura 7.3, verifica-se que um deslocamento de 0,25s leva a solução a ter um tempo de resposta de quase 100s para uma música de 4 minutos, cerca de 10 vezes maior que o tempo de resposta médio declarado pelos trabalhos descritos no capítulo 4, sendo assim inviável.

O deslocamento de 0,5s atinge taxas acima de 70% para um deslocamento de 1s ou de 2s, mas seu custo ainda é alto, pois é aproximadamente o dobro do custo declarado no Estado da Arte, conforme visto na Figura 7.3. O deslocamento de 1,25s obteve as taxas de acertos mais baixas, que não justificariam o seu baixo custo. Os deslocamentos de 0,75s e 1s têm aproximadamente as mesmas taxas de acertos, sendo assim preferível adotar um deslocamento de 1s, pois a resposta do método é quase duas vezes menor. Apesar do deslocamento de 1s com a janela de 4s ter obtido resultados melhores para o álbum usado nestes testes, foi verificado que, para a base completa, a configuração com 1s de deslocamento e janela deslizante de 2s obteve melhores taxas de acertos.

Na etapa de Extração das Repetições, dois experimentos foram realizados, um com a limiarização com percentual fixo, variando o percentual nos testes, e outro com a limiarização com percentual dinâmico, variando o percentual da área sob a curva.

Verificou-se em testes que a variação dos valores do percentual do limiar, tanto o da limiarização com percentual de corte fixo como o da área sob a curva na limiarização dinâmica, exerce influência desprezível sobre o tempo de resposta do método.

Entretanto, os tempos de resposta do método usando limiarização com percentual fixo em relação ao outro tipo de limiarização foi levemente superior nos casos de teste. A Tabela 7.1 mostra os resultados de tempo de resposta das duas abordagens para músicas de 25, 50, 120, 180, 240 e 500 segundos de comprimento aproximadamente, e o tempo de resposta que cada abordagem obteve.

Tabela 7.1: Tempo de resposta (s) por tipo de limiarização e tamanho da música (s).

25s 50s 120s 180s 240s 500s

Limiarização com percentual fixo 0,23s 0,49s 2,07s 4,18s 6,23s 24,97s

Limiarização dinâmica 0,20s 0,47s 2,04s 3,96s 6,07s 24,76s

A abordagem com percentual fixo apresentou um tempo de resposta levemente maior, tendo sido observado em testes também que a etapa seguinte, a de Seleção do Segmento Refrão, tem um leve custo adicional quando se usa este tipo de limiarização. Este custo adicional faz com que a etapa de Seleção de Refrão, que praticamente não acrescentava tempo de resposta ao método, passe a ter alguma contribuição significativa. A distribuição do tempo de resposta nas etapas do método pode ser observada nos gráficos das Figuras 7.5 e 7.6, para as abordagens com limiar de percentual fixo e limiar dinâmico, respectivamente.

Figura 7.5: Percentual do tempo de resposta de cada etapa do método usando

limiarização com percentual de corte fixo.

Para os testes de taxa de acertos da etapa de Extração das Repetições, para cada forma de limiarização foi realizado um experimento separado, onde na abordagem com percentual de corte fixo foi variado o valor do percentual de corte de 20% a 50%, cujos resultados estão na Tabela 3 do Apêndice, e na outra abordagem foi variado o percentual de área sob a curva também de 20% a 50%, cujos resultados encontram-se na Tabela 4 do Apêndice.

A Figura 7.7 traz a taxa média de acertos para cada valor do limiar para a abordagem de limiarização com percentual de corte fixo. Nota-se que, com exceção do percentual de 20%, que apresentou valor mais baixo, os demais valores apresentaram uma taxa de acertos média superior a 67%. A variação de percentuais de 25% a 50%, curiosamente, pouco alterou a taxa

de acertos média resultante. O valor 35% apresentou, para o álbum Revolver dos Beatles, uma taxa de acertos levemente melhor que os demais valores testados.

Figura 7.6: Percentual do tempo de resposta de cada etapa do método usando

limiarização dinâmica.

Figura 7.7: Taxa média de acertos (%) por percentual de corte fixo (%), na Extração de

Repetições.

A Figura 7.8 traz a taxa média de acertos em função do valor do limiar para abordagem de limiarização dinâmica. Os valores de percentual de área sob a curva de 25%, 30% e 40% apresentaram taxas de acertos um pouco maiores em relação aos demais, com taxas maiores que 67%. O valor 30% apresentou, para o álbum Revolver dos Beatles, uma taxa de acertos levemente melhor que os demais valores testados.

Figura 7.8: Taxa média de acertos (%) por percentual de área sob a curva (%), na

Extração de Repetições.

A partir da observação dos testes de variação de parâmetros acima, duas configurações foram testadas em toda a base TUT, uma com limiar dinâmico e outra com percentual de corte fixo, a saber: (1) Tamanho de janela e deslocamento de 32ms para a Extração da Envoltória, Janela deslizante de 2s de comprimento e deslocamento de 1s para a Construção da Matriz de Similaridade e limiarização com percentual de corte fixado em 45% na Extração das Repetições; (2) Tamanho de janela e deslocamento de 32ms para a Extração da Envoltória, janela deslizante de 2s de comprimento e deslocamento de 1s para a Construção da Matriz de Similaridade e limiarização dinâmica com um percentual 30% de área abaixo da curva dos valores não nulos da matriz, na Extração das Repetições.

Quanto aos testes de tempo de resposta, uma vez que o custo computacional deste método é uma função apenas do tamanho da entrada, foi bastante escolher uma só música de quatro minutos para testar o tempo de resposta da aplicação, para que seja comparável com o resultado obtido no Estado da Arte, de aproximadamente dez segundos para músicas de três a quatro minutos. O tempo de resposta obtido foi de 6,23 segundos para a primeira configuração, com limiarização de percentual fixo, e de 6,07 segundos para a segunda configuração, com limiarização dinâmica, para a música Yer Blues, do álbum The Beatles (1968), que possui exatamente quatro minutos, uma música de tamanho médio, conforme a literatura.

Para cada uma das duas configurações, um teste de taxas de acertos foi separada- mente realizado utilizando toda a base de dados TUT, cujas taxas médias de acertos por álbum são apresentadas nas Tabelas 5 e 6 do Apêndice. Os álbuns da base TUT estão listados nestas tabelas em ordem cronológica de lançamento, onde o 1º é o Please Please Me (1963) e o 13º é o último, Let It Be (1970). O 10º álbum da banda, The Beatles (1968), lançado como disco duplo em 1968, foi tratado nos testes como sendo dois álbuns diferentes, o 10º e o 11º.

A Tabela 7.2, por sua vez, mostra as taxas médias de acertos de cada heurística para toda a base TUT, para os dois tipos de limiarização.

Tabela 7.2: Taxa de acertos (%) por heurística e tipo de limiarização, para a base TUT completa. fixo dinâmico R 61,07 62,92 O 91,78 91,59 H1 69,44 69,98 H2 66,34 67,47 H3 45,00 48,60 H4 69,23 70,50 H12 70,30 70,69 H13 66,60 66,68 H14 72,28 70,22 H23 58,35 61,11 H24 68,88 71,37 H34 64,25 64,56 H123 67,23 66,95 H124 68,70 68,90 H134 67,04 66,96 H234 66,10 66,22 H1234 67,73 69,81

A Figura 7.9 traz em um gráfico os dados da Tabela 7.2. A configuração do método com limiar dinâmico obteve taxas superiores à configuração com limiar fixo em 13 das 17 heurísticas, incluindo a randômica e o caso ótimo. O caso ótimo alcançou taxas de acerto acima de 91% para os dois tipos de limiarização, o que significa que, normalmente, dentre os segmentos listados na etapa de Extração de Repetições, ao menos um deles traz o refrão com precisão acima de 91%.

Abaixo do caso ótimo, a heurística que mais se destacou foi a H14, combinação das heurísticas H1 (Grau de Correspondência) e H4 (Localização da Repetição), alcançando uma taxa de acertos superior a 70% para ambas as abordagens de limiarização. Sete das heurísticas avaliadas ficaram bem próximas de 70%, e o restante permaneceu entre 60% e 70%, com exceção de h13, que alcançou aproximadamente 60%, e de h3, que ficou abaixo de 50%, que demonstrou ser uma heurística muito ruim, ficando abaixo do randômico.

A Figura 7.10 traz a taxa média de acertos em função da heurística avaliada e do tipo de limiarização. A abordagem com limiarização dinâmica obteve taxas superiores em 8 heurísticas dos 13 álbuns da base TUT em relação ao método usando limiar com percentual fixo.

Figura 7.9: Taxa média de acertos (%) por heurística avaliada e tipo de limiarização.

Os álbuns 3º, 4º e 5º apresentaram as taxas mais altas, acima de 70%, enquanto em álbuns como o 10º e o 11º, respectivamente o CD 1 e o CD 2 do álbum The Beatles, o método apresentou taxas de acertos próximas a 60%, o que sugere que algumas músicas da base têm uma estrutura verso-refrão mais confusa.

Figura 7.10: Taxa média de acertos (%) por álbum da base TUT e por tipo de

limiarização.

Em função do desempenho do método com limiarização dinâmica ter sido superior ao método com limiar fixo na maioria dos casos, tanto em relação à quantidade de álbuns da base TUT quanto em relação à quantidade de heurísticas testadas, a configuração fechada para testar a hipótese foi a segunda, com limiar dinâmico.

Considerando então esta configuração, foi verificado nos testes que 7 heurísticas testadas alcançaram taxas de acerto de aproximadamente 70% com um tempo de resposta de aproximadamente 6 segundos, um forte indício de que o método é funcional a uma taxa de 70% para a base TUT, uma base de dados que possui muitas músicas com uma estrutura verso- refrão confusa, com um tempo de resposta da mesma ordem de grandeza que o declarado nos trabalhos de Goto e Eronen.

Considerando a mesma configuração, seguiram-se os testes em base percussiva, realizados com o propósito de se medir a degeneração das taxas de acertos em função da ausência de elementos harmônicos e timbrais nas músicas. Os resultados destes testes na base percussiva, juntamente com os resultados na base TUT e com a degeneração, medida pelo percentual de queda na taxa média de acertos, são mostrados na Tabela 7.3. O gráfico da Figura 7.11 traz também a comparação das taxas médias de acertos do método para cada heurística, para as bases TUT e percussiva, construído a partir dos dados da Tabela 7.3, podendo ser observado que em 12 das 17 heurísticas avaliadas a degeneração na taxa de acertos foi inferior a 15%.

Tabela 7.3: Taxa de acertos (%) por heurística para as bases de dados TUT e

percussiva, e degeneração (%) por ausência de elementos harmônicos e melódicos para o método proposto.

TUT Percussiva Degeneração

R 62,92 53,56 14,88 O 91,59 88,5 3,37 H1 69,98 53,21 23,96 H2 67,47 57,7 14,48 H3 48,6 44,21 9,03 H4 70,5 47,68 32,37 H12 70,69 53,41 24,44 H13 66,68 60,5 9,27 H14 70,22 59,4 15,41 H23 61,11 52,49 14,11 H24 71,37 45,4 36,39 H34 64,56 55,93 13,37 H123 66,95 58,73 12,28 H124 68,9 60,79 11,77 H134 66,96 61,66 7,92 H234 66,22 57,74 12,81 H1234 69,81 62,25 10,83

Figura 7.11: Taxa de acertos (%) da abordagem com limiar dinâmico para as bases de

dados TUT e percussiva.

Continuando o teste da hipótese, tomando a configuração do método com limiarização dinâmica, a feature (envoltória) foi substituída por Chroma Vector, construído a partir do espectro obtido por FFT, como nos trabalhos de Goto e Eronen (seção 4.2), e a similaridade do método foi calculada a partir da Distância Euclidiana entre os vetores, no processo de construção da Matriz de Similaridade. A partir desta etapa, o método seguiu da mesma maneira que foi descrita no capítulo 6.

Esta versão do método, que explora o domínio da frequência em lugar do domínio do tempo, foi então testada da mesma maneira que a versão original, primeiramente variando os parâmetros de cada etapa do método em busca da melhor configuração, e posteriormente executada na base TUT e na base percussiva medindo-se o percentual de degeneração da taxa média de acertos. A configuração para a versão do método com FFT foi: tamanho de janela e deslocamento de 32ms para a Extração da Envoltória, Janela deslizante de 2s de comprimento e deslocamento de 1s para a Construção da Matriz de Similaridade e limiarização dinâmica com um percentual 60% de área abaixo da curva dos valores não nulos da matriz, na Extração das Repetições. Os valores de taxas de acertos obtidos para cada heurística testada

na versão do método com FFT estão descritos na Tabela 7.4 e na Figura 7.12.

Observa-se que os resultados para a versão do método com FFT foram menores que os resultados obtidos para a versão original do metodo proposto. Além disso, a heurística h3, tal como na abordagem original, apresentou as taxas de acertos mais baixas, e as demais heurísticas que combinam a classificação de h3 com quaisquer outras apresentaram taxas de acertos igualmente baixas, além da h124.

Tabela 7.4: Taxa de acertos (%) por heurística para as bases de dados TUT e

percussiva, e degeneração (%) por ausência de elementos harmônicos e melódicos para o método modificado (com FFT).

TUT Percussiva Degeneração

R 39,95 21,21 46,91 O 82,93 72,09 13,07 H1 44,19 22,10 49,99 H2 48,44 23,96 50,54 H3 0,00 0,00 0,00 H4 56,41 34,33 39,14 H12 43,36 22,60 47,88 H13 6,95 4,98 28,35 H14 44,29 30,05 32,15 H23 0,00 0,00 0,00 H24 57,10 34,33 39,88 H34 0,00 0,00 0,00 H123 4,07 4,20 -3,19 H124 3,03 3,18 -4,95 H134 2,55 2,03 20,39 H234 0,00 0,00 0,00 H1234 3,86 1,76 54,40

Figura 7.12: Taxa de acertos (%) da abordagem com limiar dinâmico para as bases de

dados TUT e percussiva para o método modificado (com FFT).

Em posse dos percentuais de degeneração em função da mudança do tipo de música executada para ambos os métodos, com Correlação de Envoltórias (CE) e com Distância

Dans le document Ressentiment : an anatomy (Page 20-28)