5.5 A NALYSE PAR ORIENTATION DIAGNOSTIQUE
5.5.9 Les EIR dits « rares »
Diante do exp osto, o uso de um benchmark p ara a avaliação objetiva e sup ervisionada dos resultados das segmentações de imagens se faz necessário. Ainda, deve esse ser comp osto de uma medid a objetiva, p ara av aliar a qualidade das segm entações obtidas, e de um banco de imagens de refer ência, com as resp ectivas segmentações
p reviamente rotuladas p or um ou m ais esp ecialistas, p ara servirem d e base à realização dos testes.
O Berkeley Segmentation Dataset and Benchmark, nas versões BSDS300 (MARTIN et al., 2001) e B SD S500 (ARBELÁELZ et al., 2011), p ara segm entação d e imagens n aturais satisfaz ambos os r equisitos. O BSD S300 calcula uma nota p ara técnicas d e detecção de bordas que caracterizem as fronteiras (boundaries) ou contornos (contours) dos objetos nas imagens, com do is objetivos: 1- servir de base d e comp aração p ara diferentes algoritmos; e, 2- av aliar ao lon go do temp o o p rogresso das técnicas em r elação ao n ível d e desemp enho humano.
O BSDS300 r ep resenta um ground truth p ara a segmentação de im agens. Im agens comp lexas de cenas n aturais foram ap resentadas a d iferentes ind ivíduos p ara serem segm entadas. Cada imagem do B SDS300 foi segmentada p or três p essoas, como ilustra a Figura 39, e os resultados foram agrup ados em um a única segmentação. Aos p articip antes foi solicitado que dividissem as imagens em “p artes”, onde cada “p arte” rep resentasse algo na imagem. Esse “algo” d everia ter igual imp ortância, mas não foi dada n enhuma instrução do que se dev eria segmentar ou não; todos tiveram livr e arb ítrio p ara segmentar as im agens conforme desejado. O B SDS300 (M ARTIN et al., 2001) contém u m con junto de 200 im agens p ara treinamento e 100 p ara validação, todas com os resp ectivos ground truths, que foram rotuladas (segm entadas) p or diferentes p essoas e, então, unificadas.
Para se calcular a qualidad e das imagens segm entadas p or uma técnica qualqu er, devem-se gerar im agens obed ecendo a algu mas restrições. As imagens segmentadas devem ap resentar níveis de cinza v ariando de p reto ao branco (0 a 255). Dev em tamb ém, obedecer à regr a de qu anto mais bran co, maior a certeza da existência de uma bord a ou contorno (fronteira), sendo p reto a ausência de bordas. A essa rotulação dos pixels o B SDS300 chamou de “bordas suaves” (soft boundaries). As imagens não dev em ser b inarizadas e as bordas devem ser finas, sendo recomendado o uso de algoritmos de afinamento morfológico ou sup ressão não máxim a (CANNY, 1986).
Figura 39 – Exemp los de segmentação d as imagens realizadas p or humanos – BSDS300
Legenda e Fonte: No BSDS300 (M ARTIN et al., 2001), cad a im agem or iginal foi segm entada p or três p essoas diferentes como ilustrado.
Para evitar erros de seleção dos valores d e corte, o BSD S300 realiza a lim iarização das imagens usando 30 diferentes valores de corte. Para cad a valor são calculadas duas medidas, precision (p recisão) e reca ll (revo cação), e então, é gerada um a curva precision- recall contendo todas as medidas p ara todos os valores de corte. As curvas precision-recall são similares, m as diferentes das curvas ROC. Precision é a p robabilidade d e que um p ixel definido p or um algor itmo como sendo de borda seja realmente u m p ixel de borda. Reca ll é a p robabilidade de qu e um pixel r eal d e borda seja detectado. Em resumo, precision é um a medida de quanto ruído há no resultado do algoritmo e recall é m edida de quanto do ground truth foi d etectado. Para atribuir uma med ida ún ica, ao invés de u ma curva, o BSD S300 calcu la o F-measure ( medid a-F) m áximo, que é o p onto da curva que mais se distancia d a origem, sendo esta a nota f inal atribuída à segmentação da técnica av aliada. F-measure é a média harmôn ica das m edidas precision e reca ll. Assim, o B SDS300 avalia nu mericam ente o quanto o resultado do algoritmo em questão se ap roxima do ground truth. Uma tolerância de
dois pixels de variação em relação ao ground truth quanto à localização dos pixels rotulados como bordas é adotada.
Na Figura 40, se v eem exemp los de im agens naturais e a segmentação d e bordas dos objetos realizada p or humanos, caracterizando o ground truth. Para p ossibilitar uma melhor imp ressão as imagens de ground truth tiveram seus tons de cinza comp lementados.
Figura 40 – Imagens naturais e ground truth p ara segmentação – BSD S300
Fonte: (ARBELÁELZ et al., 2015).
O BSDS500 (ARBELÁELZ et a l., 2011) é um a extensão do B SDS300 e contêm além d as 300 imagens originais, m ais 200 im agens p ara testes; todas com os resp ectivos ground truths, que foram ger ados p or cinco p essoas diferentes e, então, unificados. Além da análise d e detecção d e contornos dos objetos avaliada p elas curvas precision /recall, o BSDS500 introduziu três novas medidas orientadas a regiões p ara avaliação de técnicas de segm entação de im agens basead as em regiões, hier árquicas ou não: Variação da Informação (Variation of Information), Índice de Rand (Rand Index) e Cobertura da Segmentação (Segmentation Covering). Para se avaliar uma segm entação orientada a regiões, os resultados devem ser salvos em matrizes numéricas (form ato do M atLab (MATHWORKS, 2015)) e n ão em imagens. As matrizes devem conter todas as m regiões da imagem segmentada em um mesmo p lano, cujos resp ectivos pixels dev em ser rotulados de 1 a m. Deve-se usar um núm ero
diferente p ara cada r egião, ou seja, se houver 10 regiões, elas são no mead as, 1, 2, 3, ...,10, como se fosse um a imagem em tons de cinza, só que os valor es dos tons p oderiam ser de "1 a infinito" e não de "1 a 255". Os pixels rotulados com a mesm a legenda p ertencem à mesm a região. Se for usada uma estrutura hierárquica, ou seja, segm entações subsequentes de segm entações anteriores (como se fosse uma estrutura em forma de árvore) dev e-se usar um vetor (array) de células, onde cada célula contém uma matriz co m a segmentação p ara u m nível. Como exemp lo, se houvesse 2 nív eis de hierarquia, ter-se-ia u m vetor={ [matriz nivel2] [matriz nivel1] }. Nesse caso a [matriz nivel2] conteria as subdivisões p ara as regiõ es da [matriz nivel1]. Ou seja, as regiõ es do nível1 são subdiv ididas em vár ias regiões no nível2. Se não houver hier arquia, o vetor deve conter ap enas uma matriz de segmentações. Na Figur a 41, vemos exemp los de imagens origin ais e d e ground truth d isp oníveis no BSD S500. Diferentemente do BSDS300, que ap lica afin amento morfoló gico p ara afinar as bordas binarizadas em cad a nível de corte, o BSDS500 p enaliza bordas grossas, sendo indicado o uso de afin amento de bord as como p ós-p rocessamento. Em ambos a tolerân cia p ara a correta localização das bordas é de dois pixels p ara mais ou p ara menos em relação ao local correto definido no ground truth. As imagens de ambos os BSD S300/500 têm r esoluções 481 x321 ou 321x481 pixels.
Rankings (ARBELÁELZ et al., 2011), (ARBELÁELZ et al., 2015), referentes ao BSDS300 e BSD S500, ger ados p elo Grup o de Visão Comp utacional da Universidade de Berkeley (EEC S, 2015), encontram-se na Internet co m resultados p ara vár ios algor itmos de segm entação recentes e clássicos, os quais também são usados p ara efeito de comp aração. A Figura 42 ap resenta o desemp enho das técnicas de detecção de bordas ou contornos avaliadas com imagens do BSD S300. A Figur a 43 ap resenta o desemp enho das técn icas d e segm entação or ientada a r egiões avaliadas com im agens do B SD S300. A Figura 44 ap resenta simultaneam ente o desemp enho das técnicas de detecção de bord as ou contorno e das técnicas de segmentação or ientada a r egiões av aliadas p elo BSDS500.
Figura 41 – Imagens naturais e suas segmentaçõ es realizadas p or humanos – BSDS500
Fonte: (ARBELÁELZ et al., 2011).
Figura 42 – Desemp enho das técnicas de detecção de bordas ou contorno –BSD S300
Figura 43 – Desemp enho das técnicas de segmentação orientada a regiõ es – BSDS300
Fonte: (ARBELÁELZ et al., 2011).
Figura 44 – Desemp enho das técnicas de detecção de bordas ou contorno e das técnicas de segm entação orientada a regiões – BSD S500
4.1.1.1 Limitações do BS DS
Hou et a l. (2013) ar gum entam que o uso de b enchmarks na avaliação d as técnicas de segmentação tem um p ap el imp ortante no desenvolvim ento de nov as técnicas; p rimeiro, p orque os benchmarks fornecem as imagens, os ground truths e os p adrões de avaliação, e segundo, p orque os p esquisadores p rojetam as técnicas de modo a maximar o desemp enho nos benchmarks. Hou et al. ar gumentam que defin ir o qu e é um contorno não é algo trivial, e que não há um consenso sobre a defin ição ideal. Como exemp lo, citam qu e as 300 im agens do BSDS300 foram rotuladas p or 28 p essoas diferentes, em que é difícil encontrar uma imagem na qual houve concordância dos rotuladores sobre os contornos corretos p ara os objetos. Exp õem ainda que o grau de confian ça do ground truth é fund amental p ara o b enchmark, o qual dev e gar antir duas p remissas: 1- que os contornos rotulados estejam alinhados com as bordas p resentes nas imagens; e, 2- p ara u ma d ada im agem todos os contornos p ara um determinado nív el de p ercep ção dev em ser delineados. Hou et al. ar gumentam qu e o BSDS300 gar ante a 1ª p remissa, mas não garante a 2ª, ou seja, rotuladores p odem deixar d e rotular contornos imp ortantes p ara um mesmo nível de entendim ento da cena, de modo qu e a informação incorr eta p ossa p enalizar um algoritmo que identificou esses contornos verdadeiros. Ainda, segundo Hou et al., 29,40% dos rótulos no BSDS300 foram feitos p or ap enas um rotulador (rótulos órfãos) e 28,99% dos rótulos são consenso (rótulos fortes).
Hou et al. demonstraram através de exp erimentos que os rótulos órfãos têm grand e imp acto na avaliação dos algor itmos p elo benchmark, p ois p enalizam contornos corretamente classificados p elos algor itmos e induzem os algoritmos a classificarem contornos falsos. Assim, em uma v isão p essimista, argum entam que os rótulos órfãos não são conf iáveis, já qu e induzem os algoritmos a erros em ap roximadamente 50% dos casos. Em uma visão otimista, argu mentam que os algoritmos atuais são tão bons, que p ara uma base com 50% ou mais de risco nos rótulos fracos, conseguem atin gir o nível de alguns rotuladores humanos, p assando assim no teste de Turin g. Sendo assim, concluem que tanto p ela visão otimista quanto p ela p essimista, os rótulos órfãos não são ap rop riados p ara servir de ben chmark, e que d ever-se-ia focar nos rótulos fortes que ap resentam baixo risco. Argu mentam, que ap esar dos rótulos fortes não serem o b enchmark p erfeito, ainda assim, r ep resentam o verdad eiro teste de Turin g que ainda n ão foi solucionado.
Hou et al. ar gu mentam que a m edida F-measure basead a na form a como as medidas precision e recall são calculad as, dá imp ortância às bordas fracas, o que acarreta em
um “bônus” de precision p ara os algor itmos que as acertarem. Assim, os algor itmos com m ais destaque no B SDS300 são forçados a acertar mais bordas de p ouca imp ortância p ara subirem na p ontuação. Contudo, alegam que ap esar de induzir o “bônus”, a medida F-measure não p ode ser considerada equivocada. O p roblema é que ela induz ao acerto dos rótulos órfãos, o que não é um a boa p rática.
Por fim, Hou et al. mostraram que ao usar ap enas rótulos de consenso no cálculo do F-measure, tornando o BSDS300 em um ben chmark orientado a bordas fortes, os algoritmos no estado-da-arte têm uma qued a de desemp enho em méd ia de 28,7%.
Todavia, ap esar das limitações exp ostas p or Hou et al., os BSDS300 e BSDS500, lançados em 2001 e 2011, são u m m arco na área d e segmentação de imagens, tendo 565 e 250 citações, resp ectivamente, ap enas no IEEE Xp lore (ieeexp lore.ieee.or g). Portanto, devido à abran gência dos BSDS300 /500 no meio acad êmico e à quantidad e de trabalhos que usam os mesmos p ara avaliar em seus algoritmos, decid iu-se p or usá-los na avaliação da p resente trabalho, de modo que este p ossa ser comp arado com os demais.