• Aucun résultat trouvé

2 Un deux trois Elle tremblait de montrer quoi ?

Dans le document Questions complémentaires de sociologie (Page 85-105)

A avalia¸c˜ao das t´ecnicas de classifica¸c˜ao foi feita n´ıvel a n´ıvel da hierarquia, ou seja, foi reportado um valor de desempenho preditivo para cada n´ıvel separadamente. Para essa avalia¸c˜ao, as classes reais e preditas de cada exemplo foram representadas como um vetor de classes como o da Figura6.1. Assim, para a avalia¸c˜ao do desempenho das t´ecnicas no primeiro n´ıvel hier´arquico, basta obter a parte do vetor referente `as classes do primeiro n´ıvel. Para a avalia¸c˜ao do desempenho no segundo n´ıvel, basta obter a parte do vetor correspondente `as classes do primeiro e do segundo n´ıveis. O mesmo procedimento ´e aplicado para a avalia¸c˜ao nos outros n´ıveis da hierarquia.

Diferente de t´ecnicas simples-r´otulo, para a avalia¸c˜ao de classificadores multirr´otulo, a representa¸c˜ao de matrizes de confus˜ao se torna invi´avel. Se um exemplo ´e erroneamente classificado, torna-se dif´ıcil o preenchimento da matriz de confus˜ao, pois o erro pode ser registrado em todas as poss´ıveis classes as quais o exemplo pode pertencer, o que distorceria os resultados, ou pode ser registrado em apenas uma das classes, o que faria com que alguns erros n˜ao fossem registrados (Clare, 2003). Assim, todas as medidas de avalia¸c˜ao utilizadas fazem a compara¸c˜ao dos vetores de classes reais e dos vetores de classes preditas no momento de computar o desempenho dos classificadores.

Para a compara¸c˜ao das t´ecnicas da abordagem One-Shot com as t´ecnicas da aborda- gem Top-Down, modifica¸c˜oes foram feitas nos vetores de classes preditas obtidos com a utiliza¸c˜ao das t´ecnicas da abordagem One-Shot. Como mencionado nas se¸c˜oes 5.1 e 5.2, a pertinˆencia de um exemplo a uma determinada classe ´e representada por valores reais, onde cada valor representa a probabilidade de um exemplo xj ser atribu´ıdo `a classe ci.

A Figura 6.2 apresenta um exemplo de vetor de classes preditas obtido com a utiliza¸c˜ao das t´ecnicas da abordagem One-Shot. No vetor da figura, um exemplo xj tem uma pro-

babilidade de 0.8 de pertencer `a classe c2 do vetor, uma probabilidade de 0.4 de pertencer

`a classe c3, e assim por diante. Para atribuir as classes do vetor a um exemplo, pode-se

utilizar um valor de limiar. Exemplificando, se for escolhido um valor de limiar igual a 0.6, s´o s˜ao atribu´ıdas a um exemplo classes que possu´ırem, em suas correspondentes posi¸c˜oes do vetor, um valor maior ou igual a 0.5. No caso da Figura6.2, somente as classes c2, c4,

c6, c10, c11 e c16.

Figura 6.2: Exemplo de Vetor de Classes Obtido pelas T´ecnicas da Abordagem One-Shot Neste trabalho, todos os valores reais obtidos pelas t´ecnicas da abordagem One-Shot foram convertidos para o valor 1. Assim, nas predi¸c˜oes obtidas pelas t´ecnicas, qualquer classe que teve um valor maior que 0 atribu´ıdo `a sua correspondente posi¸c˜ao no vetor de classes preditas de um determinado exemplo foi atribu´ıda ao exemplo. A escolha da n˜ao utiliza¸c˜ao de limiares foi devido ao fato de que os valores atribu´ıdos `as posi¸c˜oes dos vetores de classes preditas indicam apenas as probabilidades das classes serem atribu´ıdas aos exemplos, e n˜ao excluem nenhuma classe do conjunto de classes preditas. Al´em disso, n˜ao h´a uma decis˜ao correta no momento de se decidir qual limiar utilizar para a classifica¸c˜ao.

Suponha que, ap´os o processo de divis˜ao dos exemplos, e obten¸c˜ao da ´arvore de deci- s˜ao final das t´ecnicas C4.5H e Clus-HMC, um determinado n´o-folha possua 50 exemplos pertencentes a uma classe A e 50 exemplos pertencentes a uma classe B. N˜ao existe de- cis˜ao correta para a classifica¸c˜ao de um novo exemplo que chegue a essa folha, pois ele pode pertencer a ambas as classes A e B, somente `a classe A, ou somente `a classe B.

6.2 Metodologia 87 Pode haver ainda o caso de um n´o-folha possuir 97 exemplos da classe A e 3 exemplos da classe B. Nesse caso, os exemplos da classe B podem representar apenas ru´ıdo ou podem representar informa¸c˜ao verdadeira e importante. Assim, n˜ao se sabe se a decis˜ao correta ´e classificar um novo exemplo que chegue a esse n´o-folha como pertencente a ambas as classes A e B, `as classes A com probabildade 0.97 e B com probabilidade 0.03, ou somente `a classe A. Devido a essas quest˜oes, optou-se pela n˜ao utiliza¸c˜ao de valores de limiares nesta pesquisa.

Diferentes medidas de avalia¸c˜ao foram utilizadas nesta pesquisa: medidas baseadas nas rela¸c˜oes de ancestralidade e descendˆencia (Precis˜ao e Revoca¸c˜ao Hier´arquicas e Hie- rarchical Loss Function), e medidas baseadas em distˆancia dependentes e n˜ao dependentes de profundidade (Micro/Macro Precis˜ao Hier´arquicas e Micro/Macro Revoca¸c˜ao Hier´ar- quicas).

A motiva¸c˜ao para a escolha de diferentes medidas de avalia¸c˜ao est´a no fato de que todas as medidas fazem considera¸c˜oes diferentes no momento de avaliar os desempenhos dos classificadores. Assim, ´e poss´ıvel observar como as diferentes medidas se comportam. ´

E poss´ıvel ver nos resultados que, dependendo da medida utilizada, os desempenhos dos classificadores variam.

Para considerar a profundidade da hierarquia no momento do c´alculo do desempenho, foram utilizados pesos nas medidas baseadas em distˆancia. Os pesos utilizados foram 0.26, 0.13, 0.07 e 0.04. Assim, arestas que conectam o n´o raiz da hierarquia aos n´os do primeiro n´ıvel recebem o valor 0.26. Arestas que conectam classes do primeiro n´ıvel com classes do segundo n´ıvel recebem o valor 0.13, e assim por diante. Esses pesos foram originalmente utilizados no trabalho deHolden e Freitas (2006).

Dans le document Questions complémentaires de sociologie (Page 85-105)