Um outro tipo de abordagem para a elaboração automática de audiodescrição é extrair informações diretamente do vídeo, através da detecção e reconhecimento de elementos presentes nos frames. Os trabalhos descritos nessa subseção se baseiam nesta abordagem. Foco na Criação de Datatset
A criação de um novo dataset para descrição de vídeo é apresentado em Rohrbach et al. (2017). Os autores propõem um novo conjunto de dados que contém trechos de audiodescrição alinhados a filmes completos. A escolha pelo uso de audiodescrição como exemplo de texto descritivo de vídeos consistiu de uma análise que os autores fizeram e interpretaram que as descrições fornecidas pela AD eram mais precisas em relação a outros tipos de descrições. Essa base de dados resultante contém um corpo paralelo de 128.118 sentenças alinhadas a videoclipes de 200 filmes (cerca de 150 h de video no total). O objetivo da base é gerar automaticamente as descrições dos clipes de filme, sendo utilizada por soluções de propósito de descrição geral de vídeos. A criação do conjunto de dados deu origem a um desafio de descrição de video chamado LSMDC (Large Scale Movie Description Challenge).
Foco na Descrição Geral de Vídeo (Vídeo-para-Texto)
Alguns trabalhos apresentam soluções para descrição geral de vídeos, em que um vídeo é recebido como entrada e é gerado um texto contendo um termo, elemento ou descrição como saída (Yue et al. 2016, Yang & Mao 2019, Liu et al. 2017, Rohrbach et al. 2017, Chen et al. 2017, Bolaños et al. 2018). O objetivo desses trabalhos é a descri- ção comum do vídeo, não levando em conta aspectos específicos para a audiodescrição, como por exemplo tamanho das sentenças, linguagem adequada, marcações de tempo e geração de áudio. Todos esses artigos apresentam soluções com descrições geradas de forma prévia à exibição do conteúdo. Em relação à avaliação, o método utilizado é a ava- liação automática, não apresentando avaliações diretamente com usuários. A avaliação automática consistiu do cálculo de métricas de comparação de texto, especificamente a BLEU, METEOR, ROUGE e CIDEr, como forma de medir a performance das soluções, comparando as frases geradas automaticamente com as referências das bases de dados. Essas métricas são descritas e detalhadas em (Kilickaya et al. 2016).
Yue et al. (2016) apresenta um modelo de deep learning para fazer a geração de descri- ção de vídeo. O modelo proposto se baseia no modelo de rede profunda RNN (Recurrent Neural Network) muito utilizado na análise no processamento de textos, especificamente a Long-Short Term Memory (LSTM). A proposta considera a descrição de vídeo com um
modelo First-Feed, ou seja, em que apenas a primeira unidade da LSTM é alimentada com as informações extraídas do vídeo. A etapa de codificação tem o objetivo de extrair as features dos frames do vídeo através da aplicação de Redes Neurais Convolucionais (CNN) e gerar um único vetor de features para o vídeo específico que servirá de entrada apenas para a primeira unidade LSTM da etapa de decodificação. Este sinal é propagado e cada unidade da LSTM faz a predição da palavra corrente usando a palavra gerada pela unidade anterior, até encerrar a geração da sentença. A solução foi testada com os datasets MPII-MD e o Youtube2Text, ambos consistindo de vários clips de vídeos com segundos de duração e com suas respectivas descrições textuais. A avaliação foi feita a partir do cálculo de métricas de comparação entre as sentenças esperadas e as obtidas com a solu- ção. A precisão média da métrica SVO, que verifica a precisão relacionada a estrutura da frase Sujeito-Verbo-Objeto foi de 46.11%. Para o primeiro dataset, a métricas BLEU4 e METEOR apresentaram o valor 0.385 e 0.2829, respectivamente. No segundo dataset, o valor obtido para a métrica METEOR foi de 0.634.
Yang e Mao (2019) também propõem um modelo de descrição de vídeo com base nas redes profundas CNN e LSTM. O diferencial do modelo está na utilização de informa- ção multimodal de vídeos e na incorporação de conceitos semânticos. Além de utilizar modelos CNN para extração de características dos vídeos, o modelo possui recursos para extrair informações do áudio e do vídeo, para serem utilizadas também dentro do vetor de características. A proposta de modelo de descrição consiste de um codificador LSTM que incorpora conceitos semânticos presentes nos vídeo através de um filtro semântico que integra features presentes nos frames. Esses filtros semânticos são gerados a partir da detecção de elementos considerados importantes no vídeo, como por exemplo objetos, pessoas, ações, etc. Além disso, inclui um codificador LSTM de multicamadas que de- tecta os segmentos do vídeo através da comparação de conceitos semânticos das features do vídeo de quadros-chave vizinhos. Com isso, o modelo pode incorporar as informa- ções estruturais de cada segmento dentro da representação completa do vídeo, gerando um descrição textual mais precisa do vídeo. A solução foi testada com os datasets MSR- VT, Youtube2Text e M-VAD, que possuem clips de vídeos e suas respectivas sentenças de descrição. Os resultados das métricas BLEU4, METEOR, CIDEr, ROUGE-L foram respectivamente, 0.408, 0.287, 0.468 e 0.615 para o primeiro dataset. Para o segundo, a BLEU4, METEOR e CIDEr foram 0.512, 0.354 e 0.749. Para o terceiro dataset, a métrica METEOR apresentou valor de 0.083. Os resultados mostram uma melhoria de desempenho em comparação com outros modelos variantes da LSTM.
Liu et al. (2017) apresentam um modelo de deep learning para geração de descrição de vídeos chamado Hierarchical & Multimodal Video Caption (HMVC). O modelo pro- posto integra o conhecimento intermediário, como por exemplo as cenas, objetos, ações e etc, para obter o conhecimento semântico latente em cada quadro para compor as descri- ções do vídeo. O modelo descobre o conhecimento interno do conteúdo do vídeo através da conjunção do aprendizado do conhecimento visual e textual extraídos de unidades do vídeo e, a partir dessas informações de entrada, utiliza um modelo de rede profunda para gerar a descrição. Para isso, o modelo possui 3 camadas LSTM e cada camada é proje- tada para as features visuais, as features textuais e para o vetor de palavras da descrição, respectivamente. A primeira camada (modelo visual) codifica o fluxo de features visuais.
A camada intermediária (modelo textual) codifica o fluxo de features textuais gerado por um determinado modelo de descrição de imagem. Por fim, a camada inferior codifica a entrada de texto fornecida e a representação textual das imagens para gerar a descrição final do vídeo. A solução foi avaliada com os datasets MSVD, MPII-MD e MSR-VTT, todos consistindo de clips de vídeo curtos e com suas descrições. Em relação ao primeiro dataset, a proposta obteve resultados parecidos com outras propostas mais clássicas. No segundo dataset, os valores das métricas METEOR e ROUGE-L foram os melhores em comparação com outras técnicas. Já no terceiro dataset, a proposta apresentou melhor desempenho com os valores da métrica de 0.443, 0.321, 0.689 e 0.684, respectivamente.
Chen et al. (2017) apresentam uma solução para descrição de vídeos com a utiliza- ção de modelos de deep learning, especificamente Recurrent Neural Network (RNN). O modelo proposto faz a fusão das técnicas de Machine Translation, que inclui etapas de codificação e decodificação para transformar a imagem em texto, com o mecanismo de Soft Attention, para que o modelo neural foque em partes mais relevantes durante a ta- refa de predição. Para isso, foi utilizado a detecção de objetos e de trajetórias de suas coordenadas, sendo o próprio modelo quem toma a decisão de quais são as informações necessárias para gerar a próxima palavra da frase, a partir das palavras anteriores e das informações visuais codificadas. Para testar a solução, foi utilizado o dataset MSR-VTT, que possui clips curtos de diversos gêneros e suas respectivas sentenças descritivas. A solução foi avaliada a partir das métricas de comparação entre a descrição geradas e as frases do dataset, além de métricas de avaliação humana relacionadas a coerência, rele- vância e escala de ajuda aos cegos, com todos esses valores entre 1 a 5, sendo o maior valor representando a melhor avaliação. As métricas BLEU4, METEOR, ROUGE-L, CI- DER obtiveram os seguintes valores 0.344, 0.260, 0.584 e 0.367, respectivamente. Os resultados das métricas mostram que a solução melhorou o desempenho em comparação com os modelos RNN mais clássicos. Os profissionais avaliaram a coerência, relevância e escala de ajuda com as respectivas notas 3.19, 2.75 e 2.8.
Bolaños et al. (2018) apresentam uma proposta de geração automática de descrição de vídeos que possuem o ponto de vista de gravação de primeira pessoa, ou seja, quando uma pessoa usa uma câmera para capturar seu quadro de visão. A metodologia utilizada explora informações de eventos que ocorrem consecutivamente no tempo, pois considera que os eventos de primeira pessoa, dentro do contexto de um dia, podem seguir uma rela- ção temporalmente lógica em que ações anteriores podem influenciar nas seguintes. Para isso, foi proposto um modelo capaz de capturar e aprender essa relação. Ao contrário das abordagens tradicionais, o modelo consiste em pelo menos dois estágios de codificação: um para a sequência do evento atual e outro (ou mais) para a sequência do evento anterior. Além disso, possui um estágio de decodificação que combina as informações de todos os estágios anteriores usando um LSTM de atenção de múltiplas entradas. Para avaliar a proposta foi criado um dataset EDUB-SegDesc, contendo 1339 eventos e as respectivas descrições, e calculada as métricas BLEU4, CIDEr e METEOR. Os valores obtidos foram de 0.319, 0.221 e 0,107, respectivamente. Esses resultados apresentaram melhor desem- penho quando comparado a outras técnicas que não consideram informações temporais de eventos diferentes.
Foco na Acessibilidade
Essas soluções descritas acima propõem a geração de descrição comum de vídeos, no entanto, não são voltadas para a audiodescrição especificamente. O objetivo dos trabalhos é a descrição de vídeos, porém foram usados com vídeos com curta duração (segundos), a geração do áudio é desconsiderada, não há verificação de sincronia, não há adequa- ção da linguagem, nem geração da narração, que são aspectos esses relevantes para a acessibilidade do conteúdo. Outros trabalhos propõem a criação do áudio e estão mais inseridos no contexto de acessibilidade (Campos et al. 2017, Perera et al. 2017, Karkar et al. 2018, Gagnon et al. 2009).
Campos et al. (2017) apresenta uma solução de geração de AD para vídeos de vi- gilância, com o objetivo de narrar as informações visuais detectadas nesse tipo de vídeo a usuários com deficiências visuais, como por exemplo a presença de objetos e pessoas. A solução faz a detecção desses elementos diretamente dos frames do vídeo, através da aplicação de técnicas de deep learning, especificamente o modelo CNN. Dentre todas as detecções, são consideradas apenas aquelas que se repetem durante um intervalo de 60 segundos. Em seguida, a solução gera uma sentença do tipo “Imagem mostra. . . ”, com complementação da lista de elementos detectados, por exemplo, “Imagem mostra 1 pes- soa, 1 carro.”. Essas sentenças formadas são encaminhadas para uma ferramenta de TTS para criação do áudio da AD. A avaliação da solução foi feita a partir da análise técnica da taxa de acerto do reconhecimento dos elementos, o tamanho das descrições geradas, a quantidade de objetos/pessoas detectadas e o tempo total da AD. Os resultados mostram que a solução tem potencial para auxiliar pessoas com deficiência visual, no entanto a versão apresentada não foi aplicada no contexto de tempo-real. Este artigo possui a can- didata desta tese como autora principal e é uma das publicações obtidas durante o período do doutorado.
O processo de reconhecimento de objetos em vídeo também é abordado em Karkar et al. (2018). O trabalho apresenta uma solução para dispositivos móveis que reconhece objetos presentes em uma cena, apresentada por imagem ou vídeo, e disponibiliza essa informação em formato de áudio para o usuário. A solução consiste de um aplicativo bi- língue para celular que faz a aplicação de um modelo de rede neural convolucional (CNN) para reconhecer objetos em tempo real e apresentar as informações em dois idiomas dis- tintos: inglês e árabe. Os autores informam que o aplicativo móvel pode ser estendido para dar suporte adicional às tecnologias de e-Learning e aos jogos de entretenimento educativo, no entanto, o artigo não apresenta avaliações da solução.
Já Perera et al. (2017) propõe um sistema de descrição de vídeo que faz a classifi- cação de uma ação humana e fornece esta informação para o usuário através de áudio, a partir de uma ferramenta Text-to-Speech. O sistema possui 3 camadas. A primeira é uma interface com o usuário, onde ele pode selecionar o clip de vídeo e ter acesso ao áudio correspondente ao resultado da classificação. A segunda camada é a camada de aplica- ção, responsável pela classificação da ação humana presente no vídeo através de SVM (Support Vector Machine) e da chamada do sintetizador de voz. Por fim, a última camada armazena os dados de treinamento do classificador. Os experimentos consistiram da ava- liação de classificação de 54 vídeos de testes, com uma ação por vídeo, de 6 atividades humanas: agachar, pular, correr, andar, acenar e apertar mãos. O resultado do treinamento
de classificação foi de 81,5% de acurácia. Os experimentos não apresentaram avaliações com usuários.
Por fim, Gagnon et al. (2009) apresentam um projeto de desenvolvimento de ferra- mentas de software para auxiliar a produção de audiodescrição. O objetivo é fornecer soluções computacionais que possam detectar automaticamente o conteúdo visual e aju- dar o audiodescritor no processo de criação das descrições. Devido às limitações técnicas e à complexidade das tarefas envolvidas, o objetivo do sistema é prover a sumarização de alguns elementos do filme, a fim de diminuir o esforço empregado pelo audiodescritor no processo de criação da AD, disponibilizando dois produtos finais: um arquivo com a AD narrada por um sintetizador, ou um roteiro com os tempos e descrições que pode ser editado através de um player. O sistema propõe a detecção de lugares importantes e re- correntes, detecção de faces, reconhecimento de texto importante para a compreensão da história (texto-chave) e ação de pessoas. Essas detecções automáticas do conteúdo visual são feitas através de uma coleção de filtros especializados que extraem informações de alto nível, afim de descrevê-los; algoritmos para formar agrupamentos de rostos similares baseados na observação de características e semelhanças entre as faces; técnicas de seg- mentação de imagens; acompanhamento de movimentos extraídos da sequencia do vídeo, a partir de características selecionadas da imagem inicial. O artigo foi publicado no ano de 2009 e apresenta a solução ainda em fase de desenvolvimento. Os resultados prelimi- nares mostraram que a abordagem ainda não atende as necessidades dos usuários cegos de forma satisfatória, no entanto, os autores mencionam que a técnica do processo é viável. A revisão sistemática não retornou artigos mais recentes que relatam a continuidade da pesquisa.