• Aucun résultat trouvé

21existing legal and institutional structures

Em visão computacional uma ferramenta essencial utilizada na análise dos dados são os descritores, eles permitem descrever as características ópticas em dados que permitam tais representações visuais. Eles podem detalhar características elementares como forma, volume, a cor ou textura, dentre outras. Desse modo para a nossa proposta escolhemos um descritor baseado em dois tipos categorias descritivas: assinatura e histograma, o descritor Signature of Histograms of Orientations(SHOT) (Salti et al. 2014).

A capacidade de calcular semelhança entre superfícies 3D pode ser chamada de sur- face matching7 que é a chave de tarefas de visão computacional tais como reconheci- mentos de objetos 3D e alinhamento de superfícies. A partir dos meados de 1980 houve um forte interesse de investigação na surface matching. A tendência mais popular para surface matching, conforme Tombari et al. (Tombari et al. 2010), é explorar uma repre- sentação local de compactação de entrada de dados conhecido como descritor.

A correspondência local é estabelecida pelos descritores de correspondência 3D po- dendo ser usada para solucionar tarefas de alto nível tal como reconhecimento de objetos 3D. Esses permitem lidar com os problemas de oclusão, desordem (clutter) e mudanças de perspectiva.

A proposta apresentada por Tombari e colaboradores (Tombari et al. 2010) é baseada em dois tipos de descritores: Assinatura (Signature) e Histograma (Histogram). Primei- ramente, os autores definem como support a vizinhança da superfície 3D de um ponto estipulado, esse termo será usado durante a explanação das ideias.

Os descritores por Assinatura descrevem o support estabelecendo uma invariante local um frame de referência o Reference Frame (RF) e uma codificação específica, de acordo com coordenadas locais dos pontos, assim são computadas uma ou mais medidas geomé- tricas de maneira individual em cada ponto de um subconjunto da vizinhança do mesmo. Por outro lado, os métodos baseados em Histograma descrevem o support através da co- dificação de contadores de entidades topológicas locais (e.g. vértice, contador de pontos, malha de área triangular) dentro dos histogramas, conforme uma especificação do domí- nio mensurado (e.g. coordenada de pontos, curvaturas, ângulos das normais) que requer a definição de qualquer Reference Axis (RA) ou local RF. Os RA são baseados tipicamente nas features das normais dos pontos.

De maneira geral, os descritores por assinatura têm grande potencial descritivo graças ao uso da informação bem definida espacialmente, enquanto os baseados em histograma têm um equilíbrio entre poder descritivo e robustez por comprimir as estruturas geométri- cas dentro de células.

7Correspondência entre a variedade linear (superfície 3D) de um modelo em uma determinada cena 3D,

14 CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA

O descritor SHOT faz uma interpretação completa do local RF, tornando o local RF único e não ambíguo. Segundo Tombari et al. (Tombari et al. 2010), a escolha das refe- rências locais para os descritores 3D costuma não ter grande relevância na elaboração dos mesmos, deixando o foco no desenvolvimento do poder discriminativo dos descritores. Sendo assim as abordagens para as escolhas das referências locais se tornam ambíguas, ou não únicas, ou bem sensíveis ao ruído.

Assim o local RF no descritor SHOT é único, não ambíguo e robusto, diferentemente de outras propostas de descritores comparadas com ele no período, graças à análise es- pecífica e comprovação em experimentos feitos em (Tombari et al. 2010). No entanto, existem outros descritores 3D que também possuem esses benefícios que foram analisa- dos em (Salti et al. 2014).

Local Reference Frame (LRF)

Segundo Tombari et al. (Tombari et al. 2010) e Salti et al. (Salti et al. 2014) o local RF é uma importante definição para os descritores 3D sendo uma opção torná-los invari- antes a certas fontes de variação, da mesma forma que a rotação e/ou invariância de escala que é inserida nos descritores 2D. Essencialmente, o local RF no descritor SHOT são três vetores unitários ortogonais definidos em cima de um support local. Ele tem o objetivo de ser invariante à translação e rotação e ter robustez a ruído e desordem (clutter). No entanto, para remover as ambiguidades do LRF a abordagem mais comum é a utilização de múltiplos LRFs para cada keypoint, fornecendo múltiplas descrições para o mesmo keypoint. Porém ao adotar esse tipo de abordagem se cria o empecilho de existirem mais descritores para serem calculados e correspondidos, trazendo uma menor eficiência e len- tidão nos métodos, conforme (Tombari et al. 2010). Além de empurrar a ambiguidade para a fase da correspondência, já que as direções principais (i.e., os três eixos no espaço cartesiano) para a maioria das abordagens dos LRFs não serem vetores, mas sendo sinais não definidos como foi exposto em (Tombari et al. 2010).

Assim as direções principais podem ser calculadas por Decomposição em Valores Singulares (SVD)8ou Decomposição em Autovalores (EVD)9da matriz de covariância das coordenadas dos pontos dentro do support, onde a saída dessa computação é um vetor com sinal. No entanto, a saída da operação pode ser considerada como um acidente numérico, não repetitivo e ambíguo em diferentes instâncias da mesma malha. Conforme Tombari et al. (Tombari et al. 2010), é possível superar essa limitação dos LRFs, ideia que será exposta, posteriormente.

8Em álgebra linear, SVD é a fatoração de uma matriz real ou complexa M. Formalmente, a decompo-

sição é feita em um produto matricial entre uma matriz unitária U m × m real ou complexa, uma matriz retangular diagonal D m × n com números reais não-negativos na diagonal e uma matriz conjugada trans- posta unitária V∗n× n real ou complexa.

9Procedimento algébrico de fatoração de uma matriz numa forma canônica, onde a matriz é representada

em termos de seus autovalores e autovetores, onde apenas matrizes diagonalizáveis podem ser fatoráveis desta forma.

2.2. TÉCNICAS PARA NUVEM DE PONTOS 3D 15

Tarefa de correspondência

Para esta proposta a aplicação escolhida para realização das abordagens e dos ex- perimentos foi a detecção de objetos que será explicada no Capítulo 4.3. Assim sendo uma parte importantíssima desse tipo de aplicação é fase de correspondência de pontos. Na Seção 2.2.2 resolvemos trazer uma breve explicação de como é dividida a tarefa de correspondência. Desse modo, o problema de organização de correspondência consiste em pares de entidades, por exemplo, pixels na imagem x e y, de acordo com a função de similaridade. Devido à ambiguidade no mundo real e presença de ruído na aquisição dos dados para o processo, a tarefa de descobrir esses pares é algo desafiador na visão computacional. Conforme Do Nascimento em (do Nascimento et al. 2013), a tarefa de correspondência pode ser dividida em três processos principais:

• Detecção e seleção de um conjunto pontos de interesse, chamado de keypoints; • Cálculo da assinatura, comumente chamada de descritor, para cada keypoint; • Encontro dos vizinhos mais próximos no espaço descrito;

É notado que mesmo a uma distância perfeitamente semelhante combinada com o melhor detector de keypoints não irá compensar um descritor com características discriminativas pobres.

Remoção da ambiguidade SVD para RF repetitivo

A proposta de remover a ambiguidade SVD para RF repetitivo começa após Tombari et al. (Tombari et al. 2010) analisar vários métodos de forma experimental. Baseando-se numa técnica bem conhecida de estimação da normal na presença de ruído direcionado o Total Least Square10 (TLS) e SVD, presente no trabalho (Mitra & Nguyen 2003).

O TLS faz a estimação da direção da normal que é dada pelos autovetores fornecidos pelo SVD da matriz de covariância M de um k mais próximo dos vizinhos de pipontos e

ˆ

pa estimação da média de todos os pi, definido pela Equação 2.3 por Mitra e Nguyen em

(Mitra & Nguyen 2003).

M =1 k k

i=0 (pi− ˆp)(pi− ˆp)T (2.3)

Em (Tombari et al. 2010) foi feita a modificação da Equação 2.3, de modo a atribuir pesos menores a pontos distantes aumentando a repetibilidade11 na presença de clutter. Para melhorar a robustez, todos os pontos são colocados dentro de um suporte esférico (de raio R) que são usados para computar o descritor e também utilizados para calcular M. Portanto, o cálculo da matriz de correlação é uma combinação linear ponderada,

10É um tipo de modelo de medição de erro, uma técnica de modelagem de dados baseada nos mínimos

quadrados em que os erros de observação em ambas as variáveis dependentes e independentes são tidos em conta. Observar-se a definição matemática em (Mitra & Nguyen 2003)

11A capacidade de um operador consistentemente repetir a mesma medição da mesma parte, usando o

16 CAPÍTULO 2. FUNDAMENTAÇÃO TEÓRICA

ignorando o cálculo do centroide e substituindo pela feature point p, onde di= ||pi− p||2.

Essa modificação é representada pela a Equação 2.4.

M = 1

i:di≤R

(R − di)i:d

i≤R

(R − di)(pi− p)(pi− p)T (2.4)

Portanto, a Equação 2.4 fornece as direções repetitivas dos eixos dos RFs locais que é obrigatório para se obter uma descrição da superfície local eficaz. No entanto, ainda existia o problema da ambiguidade do sinal para EVD e SVD, que foi solucionado com um mapeamento realizado no trabalho de Petrelli e Di Stefano (Petrelli & Stefano 2011), que foi utilizado no descritor. Desse modo, os autores (Tombari et al. 2010) conseguiram a repetitividade das direções sem a repetição dos sinais, tornando a definição do local RF desambigua permitindo a descrição adequada das superfícies analisadas e a descrição de múltiplos objetos na cena.

Signature of Histograms of Orientations

O SHOT é um descritor 3D que codifica os histogramas das entidades básicas dife- renciais de primeira ordem, isto é, inserir dentro do support os histogramas das normais que são mais representativos na estrutura local da superfície em comparação com as co- ordenadas no plano 3D, tendo o benefício de conseguir robustez ao ruído com efeito de filtragem, tornando local RF 3D único e robusto. Para a assinatura foi introduzido infor- mações geométricas relativas à localização dos pontos dentro do support que aumenta o poder discriminativo do descritor. Isto é feito num conjunto de computação de histogra- mas locais sobre os volumes 3D definido por uma grade 3D sobreposta sobre o support e, em seguida, são agrupados todos os histogramas locais para formar o descritor efetivo. Por isso, o descritor se coloca na intersecção entre Histogramas e Assinaturas: Signature of Histograms of OrienTations(SHOT).

Para cada um dos histogramas locais são acumulados os pontos de contagem em cé- lulas (bins) (estruturas de armazenamento) em função do cosseno do ângulo θq entre a

normal no ponto, nq, e o eixo local z no feature point zk. Sendo a razão dos autores

utilizarem o cosseno foi pela rapidez do cálculo, já que cosθq= zq.nq, e como o espaço

de armazenamento de cosθqé equivalente ao armazenamento da variação espacial de θq,

de modo que um armazenamento mais grosseiro é criado para as direções próximas ao sentido de referência da normal e um mais fino para direções ortogonais, onde por experi- mentos baseados em ajustes indicaram que o número de células para histogramas internos seja de 11. Na estrutura de assinatura do descritor é usada uma grade esférica isotrópica que engloba divisões radiais ao longo dos eixos, azimute e eixos de elevação. Uma vez que cada volume da grade codifica uma entidade muito descritiva representada pelo his- tograma local usando uma divisão grosseira da grade espacial e, portanto, uma pequena cardinalidade do descritor. De modo que a estrutura é formada por um número de 32 célu- las espaciais que resultam em 8 divisões em azimute, 2 divisões de elevação e 2 divisões radiais. Os autores (Salti et al. 2014) obtiveram um comprimento total do descritor de 352, um valor que permite uma indexação e correspondência mais rápidas em relação a

2.2. TÉCNICAS PARA NUVEM DE PONTOS 3D 17

outras propostas como mencionado no trabalho.

Em (Tombari et al. 2010) foi visto que o descritor SHOT tinha um melhor desempe- nho em relação aos outros descritores comparados. Por exemplo, na subamostragem de conjunto de dados e detalhamento de uma cena representada por uma curva de Precision- Recall12, reconstrução 3D, correspondência de pontos e desempenho. No entanto, os resultados não foram tão bons em relação a robustez da variação da densidade de pontos, de forma geral para todos os descritores comparados.

Por fim, o descritor SHOT foi aprimorado em Salti et al. (Salti et al. 2014), com a normalização de todo o descritor para a norma Euclidiana igual a 1. Assim eles assumi- ram que a densidade de amostragem pode variar de forma independente em cada célula e, portanto, descarta como não informativo às diferenças de densidade de pontos entre célu- las. Sendo considerado que as variações globais (ou pelo menos regionais) da densidade e as diferenças locais se mantenham como uma fonte de informação discriminativa.