• Aucun résultat trouvé

6.2 Techniques de recueil et d’analyse des données

6.2.2 Le questionnaire de fin de FAD

4.1.1 Dataset global

O conjunto de dados utilizado neste trabalho é constituído por 111 vídeos completos e anonimizados, que foram capturados por intermédio de cápsulas do tipo PillCam SB3. Os vídeos capturados por este tipo de cápsula têm um deslocamento sem unidades anexadas, que é baseado em pontos de referência anotados pelo médico (nomeadamente a primeira imagem do duodeno e a válvula ileocecal) e na matriz de sensores de radiofrequência colocados no paciente. Este deslocamento, embora não possa ser usado como ground-truth para o treino da RN, pela dificuldade de extrair essa informação do software RR, irá permitir a aferição do método que será proposto.

De salientar também que o software de vídeo que compila os dados em bruto adquiridos em cada vídeo de diagnóstico aplica uma compilação que reduz bastante o número de imagens no vídeo, eliminando aquelas que considera redundantes. Essas imagens removidas poderiam reduzir, potencialmente, a sobreposição entre imagens em alguns casos (como se apresenta na Figura 37), podendo o frame rate diminuir para um valor tão baixo como 0.7 fps depois de aplicada essa técnica (sendo o tabelado pelo fabricante entre 2 a 6 fps). É importante referir que para extrair as sequências de imagens dos vídeos utilizados foi necessária a utilização do software Sensarea [165].

Capítulo 4 Deslocamento da CE, aplicando AP

Figura 37:Imagens consecutivas sem sobreposição, adquiridas de câmara PillCam SB3.

Do conjunto total de imagens extraídas dos vídeos mencionados e dado que o número de imagens não informativas (contendo bolhas ou resíduos verdes que fazem oclusão da mucosa) é significativo, houve a necessidade de eliminá-las do conjunto de dados a utilizar, através de uma abordagem baseada na cor dominante das imagens da sequência. É obtida a cor dominante de cada imagem no espaço de cor RGB e repetido o processo para todo o conjunto de dados. Com esse resultado, aplica-se a transformação do valor da cor dominante para o espaço de cor HSV, dado ser mais fácil a identificação dos tons verdes característicos das imagens não informativas. Alguns exemplos são apresentados na Figura 38.

Figura 38: Imagens com resíduos que ocultam a mucosa, adquiridas de câmara PillCam SB3, consideradas não informativas.

Uma dada imagem é considerada como não informativa e descartada do conjunto de dados final se o valor da cor dominante na componente H (hue) está compreendida entre 21 e 80, intervalo que foi obtido empiricamente através de extensos testes. Para este intervalo, obteve-se que cerca de 17% a 28% das imagens pertencentes ao intestino delgado são não informativas e, portanto, passiveis de ser descartáveis.

Por outra perspetiva, a aplicação deste algoritmo de seleção de imagens consome bastante tempo devido ao numero elevado de imagens, apresentando também uma precisão que é ainda melhorável, já que pode detetar imagens com cor verde como cor dominante e, no entanto, ainda serem informativas ou então pode falhar a deteção de imagens com bolhas que não apresentam cor dominante verde e que podem promover a oclusão da mucosa.

4.1.2 Dataset sintético

Para a implementação do método que é proposto, serão baseadas as experiências em arquiteturas AP, mais especificamente nas redes HomographyNet, exigindo assim dados anotados que não possuímos e que teremos de gerar através de transformações artificiais, para obter o conjunto de dados de ground-truth. As redes foram projetadas para receber como entradas duas imagens empilhadas em escala de cinzas de dimensões 128x128 pixéis, denominadas de patches e que são um recorte das imagens obtidas da câmara endoscópica de dimensões 320x320 pixéis, que são relacionadas entre si através de uma matriz de homografia.

Este conjunto de dados sintético foi gerado de modo a assemelhar-se às transformações reais que ocorrem entre duas imagens consecutivas, gerando aleatoriamente uma grande variedade de transformações e introduzindo artefactos de ruído. Apresenta-se detalhado o algoritmo de 7 passos para a criação do conjunto de dados sintético, baseado na homografia por 4 pontos que será descrita na subsecção 4.2.1, onde recebe uma imagem RGB de 320x320 pixéis e disponibiliza dois patches empilhados, em escala de cinzas, com 128x128 pixéis:

1) Converter a imagem endoscópica original para escala de cinzas;

2) Obter o patch com 128x128 pixéis (quadrado azul na Figura 39 a)) da imagem de intensidade obtida de 1). As coordenadas dos vértices do patch são geradas aleatoriamente dentro de valores que permitam manter a região quadrada, o que levará a que possam ser incluídas diferentes características para cada par de imagens criado a partir de uma dada imagem;

3) Adicionar uma perturbação, que é a soma de valores aleatórios, em cada uma das coordenadas dos vértices do patch (quadrado verde na Figura 39 a));

4) Com os pontos de perturbação e com os vértices originais do passo 2), obter a matriz de homografia (K) que mapeia os pixéis da imagem original na imagem com

Capítulo 4 Deslocamento da CE, aplicando AP

perturbações aleatórias. Seguidamente, calcular a matriz inversa (K-1) e aplicar na imagem original de 320x320 pixéis de modo a obter a imagem deformada;

5) Usar as coordenadas dos vértices, sem perturbações, gerados no passo 2) na nova imagem deformada (quadrado verde na Figura 39 b)), para obter um novo patch de 128x128 pixéis;

6) Introduzir diferentes artefactos com níveis aleatórios de intensidade e com uma dada probabilidade. Como exemplos aumento/diminuição da intensidade dos pixéis com 40% de probabilidade ou distorção Gaussiana com 30% de probabilidade;

7) Obter o patch com a perturbação empilhado sobre o patch original, de modo a criar uma imagem 128x128x2 e devolver o offset entre as coordenadas dos vértices do

patch perturbado e do original. Estes offsets irão formar a homografia de 4 pontos que

será usada como anotação.

Figura 39: a) Imagem original com patch sem perturbações (azul) e patch com perturbação (verde); b) Imagem deformada com o patch original sem perturbações projetado (azul) e com a localização do patch original sem perturbações (verde).

O processo mencionado é aplicado 3 vezes para cada imagem, representando um aumento considerável no tamanho do conjunto de dados. Destes dados, 75% são usados para treino da rede (7 303 680 amostras) e os restantes 25% para o teste (2 711 040 amostras).