Des condamnations qui demeurent rares - RAPPORT D’INFORMATION

Conforme apresentado no capítulo anterior, nenhuma das bases de imagens existentes atende de maneira completa a todos os critérios que gostaríamos de abordar no presente trabalho. Desta maneira, optamos por construir uma nova base com imagens de motoristas capturados em situações próximas à real. Nesta seção apresentamos as técnicas e o fluxo de dados envolvidos na construção dessa nova base.

A base de imagens consiste em imagens capturadas da face do condutor no interior de um veículo. O veículo utilizado na coleta das imagens foi o modelo Chevrolet Prisma 2017. A escolha do veículo se deu por causa da disponibilidade do mesmo para realizar as coletas. O local em que a câmera foi instalada passou pela escolha entre dois pontos, o primeiro entre painel de instrumentos do veículo no centro da direção e um segundo sobre o painel logo acima da direção. A escolha final do local orientou-se pelos seguintes pressupostos, o ponto de vista de construção, produção e design e o outro ponto, na coleta clara das imagens. Após realizadas algumas coletas de imagens em ambas as posições pudemos observar que apesar da questão de design apontar para a escolha do ponto central, as imagens coletadas podem sofrer interferências do próprio motorista, quando o mesmo faz algum movimento ao volante, obstruindo assim a imagem com suas mãos e o próprio volante. O mesmo problema não acontece quando a câmera é instalada na parte superior do painel do veículo. Posto isto, a decisão final foi na instalação da câmera sobre o painel do motorista, conforme podemos observar na Figura 3.7. A câmera foi instalada a uma distância do motorista entre 60cm a 90cm, dependendo da regulagem do banco escolhida pelo motorista.

Figura 3.7 – Pontos das zonas de visão do motorista no ambiente real. Os pontos de atenção estão destacados em verde. Figura inferior esquerda, posição de ins- talação da câmera. Figura inferior direita mostra a distância média entre o motorista e a câmera

imagens. Entretanto, todas as coletas foram realizadas em ambientes externos, em diver- sos lugares e horários diferentes do dia, aumentando assim a variabilidade de iluminação e outros fatores externos nas imagens coletadas. Um pesquisador orientou os voluntários durante todo o procedimento de coleta. Primeiramente, era apresentado ao participante um termo de compromisso e uso de imagem, no qual era requerida a assinatura de con- sentimento do voluntário. Posteriormente, o participante era orientado a sentar no banco do motorista e pedia-se que ele(a) se posicionasse da maneira na qual achasse confortável, ficando livre para ajustar o assento do motorista e espelhos do veículo.

Após esta preparação inicial, eram apresentados os 18 pontos de visão diferentes previamente determinados. Cada ponto observado pelo motorista foi numerado do número 1 até 18 para facilitar a identificação e interação do mesmo no momento da captura. Para cada ponto coletado, o motorista foi instruído a fixar seu ponto de visão na área que incluía o ponto durante 10 segundos consecutivos. Um alarme sonoro era disparado

Tabela 3.3 – Descrição de cada ponto de coleta de imagens no interior do veículo em relação a Figura 3.7

pelo software de captura indicando o inicio da coleta. Após 10 segundos, outro alarme sonoro era ouvido assinalando que a coleta de imagens havia finalizado e o motorista podia descansar. A descrição de cada ponto é apresentada na Tabela 3.3.

O software de captura foi desenvolvido para auxiliar a captura e o armazenamento das imagens coletadas. Ele é responsável pelos sinais sonoros que conduzem a coleta das imagens e também armazena os dados em disco rígido. A aplicação foi configu- rada para coletar 30 imagens por segundo durante 10 segundos, ou seja, são coletadas 300 imagens por câmera (colorida, infravermelha 1, infravermelha 2 e profundidade). sendo assim, temos um total de 4 x 200 = 1200 imagens para serem armazenadas ao final da captura de cada ponto.

A câmera Intel○c RealsenseTM R200 possui uma interface de conexão utilizando o padrão USB 3.0. Com isso, conseguimos obter uma transferência de dados rápida e eficaz a especificação da câmera diz que ela pode prover até 60 quadros por segundos. Entretanto, capturamos as imagens para construir nossa base a 30 quadros por segundo, que já é suficiente para o nosso tipo de aplicação. A fabricante disponibiliza em seu site de

internet uma biblioteca de software para conexão e comunicação com sua câmera, esta é uma biblioteca de uso geral e é compatível com sistemas operacionais Linux e Windows. A biblioteca provê acesso às imagens capturadas de todas as três câmeras (câmera colorida, infravermelha esquerda e infravermelha direita) e mais os dados de profundidade, sem nenhum pré-processamento dos mesmos. A R200 coleta as imagens de todas as câmeras mais a de profundidade simultaneamente a cada rodada e as envia para o software. O mesmo recebe as imagens e as armazena na memória RAM do computador. Armazenar as imagens na memória RAM (Random Access Memory)é algo importante, porque salvar as imagens em disco é muito mais lento que salvá-las em RAM, mesmo utilizando um disco de armazenamento rápido como os SSDs (Solid State Disks). Durante o período em que o voluntário está em descanso, o software inicia o processo de armazenamento das imagens em disco. Este processo leva cerca de três vezes mais tempo do que a coleta das imagens devido ao tempo de acesso ao disco rígido.

As imagens capturadas foram configuradas no formato de 240x320 pixels, levando-se em consideração recomendações do fabricante para obtenção do melhor foco das câmeras infravermelhas para uma distância de 60 cm do objeto. Sendo assim, as imagens de todas as câmeras mais a de profundidade foram configuradas com este mesmo tamanho.

O formato das imagens capturadas pela câmera colorida são de RGB8 e foram salvas em disco como BMP com 24bits de resolução. Já as imagens capturadas pelas câmeras infravermelho utilizaram formato Y8, ou seja, 8 bits em formato de cinza e salvas no disco como BMP de 8bits. As imagens geradas de profundidade seguem o formato inteiro sem sinal de 16 bits, onde os valores correspondem à distância da câmera em milímetros do ponto do objeto que foi calculado, e a janela da mesma é alinhada com a câmera infravermelho esquerda, os dados de profundidade foram salvos no disco em formato YAML 1.0.

A base de dados de imagens assim foi formada por 50 sessões coletadas durante o dia e mais 10 sessões coletadas no período noturno. Do total de participantes, 12 são mulheres e 38 são homens. Doze aparecem nas imagens utilizando óculos de grau.

A base construída foi nomeada DG-Unicamp (Drive Gaze) e ela encontra-se disponível publicamente para download. Seu acesso pode ser requisitado via site2 _após o preenchimento do termo de compromisso. A Figura 3.8 mostra algumas imagens de exemplo armazenadas na nova base de dados.

Os dados estão divididos por sessão e dentro dessa por cada ponto descrito anteriormente, onde todas as imagens das câmeras colorida, infravermelhas e de pro-

Figura 3.8 – Exemplo de algumas imagens armazenadas na nova base de dados. Na primeira coluna à esquerda temos as imagens do motorista com foco no espelho retrovisor direito (ponto 2), A coluna central mostra o motorista olhando para a pista pelo vidro frontal (ponto 13) e na coluna da direita temos o motorista com o foco na zona do retrovisor esquerdo (ponto 6)

fundidade estão acessíveis. Todos os dados e imagens dos usuários estão em servidores protegidos de acesso de terceiros. A base somente pode ser utilizada para fins de estudos e seu acesso só é liberado após assinatura de termo de compromisso. Todos os voluntários assinaram o termo de ciência que foi apresentado e aprovado pelo Comitê de Ética em Pesquisa (CEP) da Universidade de Campinas e também um termo de uso de imagens para fins de pesquisa.

3.5 Considerações Finais

A tecnologia de câmeras de profundidade vem evoluindo rapidamente. Neste capítulo, discutimos as diferentes abordagens existentes para obtenção de informação de

profundidade de objetos a uma certa distância.

Para desenvolver estes tipos de sistemas não intrusivos, faz-se necessário o uso de uma base de imagens de motoristas e, no final do capítulo, é feita uma análise detalhada das bases de imagens existentes e como poderíamos utilizá-las em nosso trabalho. Após a análise e a constatação que nenhuma base existente se aplicaria de forma adequada em nosso trabalho, apresentamos a base de imagens criada neste trabalho e comparamos a nossa base com as outras na Tabela 3.1.

Dentre as diferentes abordagens, o presente trabalho adotou um dos modelos atualmente existentes de uma câmera de profundidade híbrida, que une uma implemen- tação de câmera estereoscópica com a abordagem de padrão de luz estruturada para inferência de informações de profundidade.

A escolha deste tipo de câmera se deu, entre outros aspectos, pela sua facilidade de adaptação a ambientes com diferentes luminosidade, em particular, sua capacidade de adaptação aos ambientes claro e escuro, dia e noite, relevantes e frequentes no contexto da direção de um veículo.

A partir da escolha da câmera, realizamos a construção de uma nova base de dados. Conforme apresentado na Figura 2.2, a nova base de dados construída com imagens de diferentes tipos (colorida, infravermelhas e de profundidade) e coletadas com diferentes tipos de iluminação, motoristas com os mais variados estereótipos como barba, óculos. Formando uma nova base de imagens com 45 diferentes motoristas, sendo a segunda maior na quantidade de motoristas coletados, e a primeira em quantidade que fornece todos estes tipos diferentes de imagens.

Também nos deparamos com dificuldades que devem ser devidamente trata- das durante o desenvolvimento de aplicações futuras como o tamanho e a qualidade das imagens fornecidas pela câmera, que durante a coleta tivemos que reduzir de tamanho por definição na construção da mesma. Hoje já temos disponível no mercado uma evolução da câmera utilizada que melhora a qualidade desta informação. Outro ponto é encontrar a melhor forma de se adaptar esta câmera ao veículo de forma a não interferir o motorista e prover imagens de qualidade. A câmera apresentou algumas falhas durante a captura de imagens em condições de calor intenso, que no contexto deste problema é normal de acontecer. Haverá casos em que a temperatura no interior do veículo estacionado sob o sol poderá chegar a mais de 50o_{C. Um outro fator é a vibração que estas câmeras irão} passar quando o veículo estiver em movimento, podendo gerar imagens com ruídos e assim interferir no resultado da classificação.

4 Metodologia

A partir da construção da base DG-Unicamp, descrita no Capítulo 3, o presente capítulo trata do estudo e comparação de diferentes modelos de monitoramento de foco de visão.

A Figura 4.1 apresenta uma visão geral da abordagem adotada. Na figura, as etapas em azul, que envolvem a seleção e pré-processamento das imagens da base, as estratégias de aumento de dados e a etapa de avaliação, foram comuns a todos os modelos de classificação estudados. A etapa em verde, destaca que diferentes modelos foram avaliados.

Figura 4.1 – Fluxo realizado no trabalho. As etapas descritas em azul são comuns para todos os modelos e a etapa em verde expõe os diferentes modelos experimen- tados

A primeira etapa consiste na seleção e separação das imagens que foram utili- zadas no estudo e a estratégia adotada para uma subdivisão da base original em uma base de treinamento, uma de validação e uma base de testes. O detalhamento deste processo é dado na Seção 4.1.

Nas Seções 4.2 e 4.3, são descritas as operações de pré-processamento das imagens coletadas e a estratégia adotada para aumento de diversidade dos dados, respec- tivamente.

A Seção 4.4 apresenta os diferentes modelos que foram avaliados no presente trabalho e, finalmente, a Seção 4.5 descreve os parâmetros de avaliação e comparação entre os diferentes modelos e trabalhos relacionados. Os resultados da avaliação e comparação entre diferentes modelos são apresentados e discutidos no Capítulo 5.

Dans le document RAPPORT D’INFORMATION (Page 38-41)