2 W HAT IS RESENTMENT ?
2.1 A definition of resentment (and indignation)
2.1.1 Anger and resentment
Neste passo, cada par de segmentos das repetições encontradas na matriz de similari- dade na etapa anterior estão listados pelo armazenamento de seus extremos (instante inicial e instante final). Dentre estas repetições, que podem incluir tanto um refrão como outra parte da música que também é repetida, somente uma deve ser retornada pelo método como refrão obtido. Tal como nas soluções de Goto e Eronen, este processo de seleção é realizado por heurísticas.
A primeira heurística adotada nesta solução é a do range de tamanho de refrãos. O range adotado com base em observações exaustivas sobre músicas de diversos estilos musi- cais é o intervalo de 5% a 25% da música, onde segmentos fora deste range são descartados. O descarte de segmentos com tamanho fora do range é realizado porque segmentos maiores que 25% do comprimento do sinal provavelmente possuem muitos trechos que não fazem parte do refrão, e segmentos menores que 5% do tamanho da música provavelmente não têm comprimento suficiente para conter um refrão. Esta heurística é a mesma adotada por Goto, conforme descrito na seção 3.5, que adotou um range de 7,7s a 40s, fixos independente do tamanho da música. Para o método proposto, preferiu-se a adoção de um range variável conforme o tamanho da música, partindo-se do pressuposto de que músicas maiores tendem a ter refrãos maiores.
O descarte dos segmentos menores que 5% do tamanho da música é realizado removendo-se as diagonais muito curtas da matriz. A matriz da Figura 6.13 é resultante deste processo de descarte por range de refrãos sobre a matriz da Figura 6.12, juntamente com o processo de remoção de gaps nulos descrito na etapa anterior do método. Dentre as heurísticas utilizadas na solução proposta neste trabalho, esta heurística é a única que exclui
segmentos dentre os candidatos a refrão.
Figura 6.13: SSM da Figura 6.12, após remoção de gaps nulos e não nulos.
As demais heurísticas, descritas a seguir, foram implementadas na forma de classifica- dores que retornam um score normalizado (entre zero e um) para cada segmento classificado, que pode ser interpretado como a probabilidade deste segmento de ser um refrão segundo os critérios de avaliação desta heurística.
A segunda heurística adotada foi construída como um classificador que atribui como score o somatório (normalizado) do grau de correspondência do segmento com os outros segmentos listados, onde o segmento que tiver maior soma do grau de correspondência com todos os demais segmentos é um forte candidato a refrão. A correspondência entre dois segmentos é calculada usando F-measure, cujo cálculo foi descrito na seção 4.6. Este cálculo retorna um valor entre zero e um, para dois intervalos a e b, o qual mede o grau de correspondência entre ambos, onde grau zero indica correspondência nula, quando não há interseção entre os intervalos em questão, enquanto grau um indica correspondência máxima, quando os intervalos são exatamente iguais, possuindo os mesmos pontos extremos (instante inicial e instante final).
Uma matriz de correspondência é criada, equivalente à matriz de similaridade, e cada posição armazenará a correspondência de cada par de segmentos entre si, com cada segmento correspondendo a uma linha e uma coluna segundo a sequência a qual foram extraídos da matriz de similaridade na etapa anterior da solução. Assim, a medida desta heurística, para cada segmento, é a soma dos valores contidos na linha com os valores contidos na coluna
deste segmento nesta matriz de correspondência. Este valor, no fim, é normalizado, para que seja retornado um valor entre zero a um, o score do classificador desta heurística para cada segmento classificado. Esta heurística considera o número de repetições de um trecho do sinal ao longo da música, porque um segmento que foi listado por um número maior de repetições tem maior chance de ser um refrão, pela própria definição de refrão como parte que mais se repete.
A terceira heurística é a Similaridade Média, construída como um classificador que atribui maior score a um segmento de uma repetição cuja diagonal na matriz possui similaridade média mais alta. Desta forma, as similaridades médias de cada diagonal são calculadas e depois os valores são também normalizados.
Nesta heurística, implicitamente é considerada também a heurística da amplitude média usada por Eronen, pois a correlação apresenta maiores valores para sinais alinhados que tenham maiores amplitudes. Ou seja, para duas repetições distintas, aquela cujos segmentos apresentam maior intensidade (maiores valores de envoltória), terá os seus segmentos classi- ficados com um score maior em relação a outras, segundo o critério de classificação desta heurística.
A quarta heurística considerada é a do último segmento. Observando diversas músicas de diversos estilos musicais, observa-se que é muito comum a música terminar com o refrão, ou com uma sequência de dois ou três refrãos consecutivos, ou ter um refrão como penúltimo segmento da música anterior a um segmento que não se repete, e que por isso não estaria entre os segmentos listados pelas repetições. Desta forma, o classificador desenvolvido para esta heurística atribuirá um score maior ao segmento localizado mais próximo à região final da música. Mais especificamente, a probabilidade do segmento de conter um refrão é inversamente proporcional à distância entre seu ponto médio e o final da música.
A quinta heurística considerada é a da localização da diagonal da repetição na matriz de similaridade, onde o classificador atribui score mais alto aos segmentos da repetição que seja uma combinação do trecho mais próximo a um quarto combinado com o trecho mais próximo a três quartos do sinal de música. A probabilidade aqui é calculada de maneira similar à quarta heurística, mas a distância considerada aqui é a do ponto médio do segmento até
o ponto equivalente a 1/4 e 3/4da música no eixo do tempo. Esta hipótese foi levantada
por Eronen, tendo sido adotada neste trabalho para que pudesse ser testada também com a métrica de similaridade proposta neste trabalho.
A Figura 6.14 mostra a matriz de similaridade da Figura 6.13 com a diagonal cujo segmento foi selecionado pela heurística Similaridade Média destacada com as cores vermelha e azul alternadas. O método proposto, com a configuração contendo janela e deslocamento de 32ms na Extração de Envoltória, janela de 2s e deslocamento de 1s na Construção da Matriz de Similaridade, e uma Extração de Repetições com limiar dinâmico e percentual de 30% da área sob a curva, com a heurística da Similaridade Média, atingiu uma taxa de acerto de 97,37% para a canção Yesterday ao selecionar este segmento da música.
Figura 6.14: SSM da Figura 6.13, com diagonal selecionada pela Similaridade Média
destacada.
Nos testes realizados, combinações destas heurísticas foram também testadas. O próximo capítulo descreve o procedimento de testes, bem como os resultados alcançados e uma discussão sobre estes resultados.
7
Experimentos e Resultados
Neste capítulo será detalhado o procedimento experimental adotado, tanto para a avaliação da taxa de acertos e do custo computacional do método desenvolvido neste trabalho, como para medição da degeneração das taxas de acertos em base percussiva em relação a uma abordagem que explora o domínio da frequência. A hipótese testada é a de que uma solução em detecção de refrão que explore o domínio do tempo é mais competitiva em relação a métodos limitados ao domínio da frequência quando é testada em bases percussivas, apresentando menor degeneração da taxa de acertos.
A seção 7.1 descreve as bases de músicas que foram utilizadas nos testes. A seção 7.2 mostra os procedimentos de testes realizados, bem como os resultados alcançados pelas diversas heurísticas que foram descritas no capítulo anterior. Na seção 7.3 são discutidos os resultados obtidos.
7.1
As Bases de Dados
Foram utilizadas duas bases de dados nos testes. A primeira é a base editada pela Universidade de Tecnologia de Tampere (TUT) e referenciada por Jouni Paulus em sua web- page sobre Análise de Estrutura Musical (Tampere University of Technology, 2016). Esta base, dentre outras bases relevantes, é referenciada também no site do MIREX, na seção Structural Segmentation (The International Music Information Retrieval Systems Evaluation Laboratory, 2016). Constituída pela discografia dos Beatles, compreende 175 músicas distribuídas nos 12 álbuns lançados pela banda ao longo de oito anos de carreira, sendo citada pelo próprio MIREX como uma “base relevante” para as pesquisas em Segmentação Estrutural de Música, que incluem também a Detecção de Refrão. É uma base pública, estando assim disponível para pesquisas posteriores.
Entre 1989 e 2000, o musicólogo Allan Pollack analisou todas as músicas na discografia dos Beatles. Suas análises foram abrangentes, e incluíram a discussão de cada estilo musical, forma, melodia, harmonia e arranjo, e toda a sua pesquisa foi lançada gratuitamente na Internet, estando disponível desde então (POLLACK, 2016). Posteriormente, um conjunto de anotações
para este corpus foi criado na Universitat Pompeu Fabra (UPF), adicionando às análises de Pollack informações de tempo. Estas anotações foram então editadas por pesquisadores da Universidade de Tecnologia de Tampere (TUT), recebendo algumas melhorias. As duas versões incluem anotações de 175 músicas dos Beatles, tendo sido liberadas livremente na Internet sob uma licença Creative Commons, embora seja necessário adquirir os álbuns dos Beatles por conta própria caso se pretenda usar o corpus em algum trabalho. As anotações TUT estão disponíveis na webpage de Jouni Paulus (Tampere University of Technology, 2016), e as anotações originais, da UPF, também estão disponíveis na internet (Universitat Pompeu Fabra, 2016).
Um conjunto paralelo de anotações sobre a discografia dos Beatles, também disponível gratuitamente on-line, foi criado no Centro de Música Digital (CDM) da Queen Mary University of London. Estas anotações também são baseadas nas pesquisas de Pollack, mas foram criadas independentemente das anotações da UPF e da TUT, e incluem todas as 180 canções dos álbuns de estúdio dos Beatles. Isso inclui cinco canções que foram omitidas nas versões UPF e TUT, presumivelmente porque a estrutura formal destas músicas foi considerada muito idiossincrática ou ambígua, como, por exemplo, ”Happiness is a warm gun“, com uma estrutura tipo ABCD, e ”Revolution 9” (Queen Mary University of London, 2016).
No contexto da detecção de refrão abordada neste trabalho, algumas dificuldades inerentes à discografia dos Beatles precisaram ser resolvidas para que a base de dados pudesse ser devidamente utilizada na avaliação do método proposto. Observando-se as anotações da base TUT, verificou-se que a maior parte das músicas dos Beatles não possui um refrão propriamente dito. Isto se deve ao fato de que a definição mais precisa de refrão inclui aspectos semânticos relacionados à letra da música, não sendo puramente definido como uma parte que se repete, inclusive por aqueles que participaram do desenvolvimento das anotações da base. Assim, muitas músicas não têm uma parte rotulada com refrão, embora tenham partes que se repetem, outras têm refrão, mas este não é a parte que mais se repete, e existem ainda aquelas que, com refrão ou sem refrão, não possuem repetições, tornando inviável a detecção de refrão de uma solução baseada em repetitividade.
Ao ser realizada uma filtragem das músicas que têm refrão e que tem repetições, verificou-se que apenas 31 músicas, num conjunto de 175 anotações, possuíam partes rotuladas como refrão que eram as mais repetidas na música. Desta forma, para as músicas que não têm partes rotuladas como refrão, o retorno de partes que se repetem foi considerado um acerto, e estas músicas foram inclusas na base utilizadas nos testes. As músicas que não possuem partes repetidas, por sua vez, não foram consideradas na análise. Desta forma, foram utilizadas nos testes, ao todo, 152 músicas da base. Nas bases de dados utilizadas por Goto e Eronen em seus testes, ficou claro em seus trabalhos que as músicas possuíam uma clara estrutura verso-refrão, e que suas bases estavam apropriadas para os testes de uma solução para detecção de refrão baseada em repetitividade.
típico da Região Nordeste do Brasil. Foram reunidas nesta base músicas das obras de Selma do Coco, Coco Raízes de Arcoverde e Caju e Castanha, referências do ritmo na região. A base conta ao todo com 20 músicas, cujos refrãos foram anotados manualmente. As músicas desta base contém uma estrutura que têm partes que se repetem e podem ser consideradas como sendo o refrão da música para a finalidade dos testes, tendo sido ignorados os aspectos semânticos das partes da música. Esta base também encontra-se disponível para pesquisas
posteriores(RODRIGUES, 2016).