• Aucun résultat trouvé

Dynamique élargie des liens

1- Le "Je" et ses appartenances brisées

A metodologia que se propõe de seguida, agrupa os “indivíduos” segundo os valores máximos das probabilidades preditivas de Y , P(Y = y|(x1, x2), D), y = 0, 1, 2, para os pontos da grelha:

-2 0 2 4 6 8 -2 0 2 4 6 8 X1 X2 Grupo_1 Grupo_0 Grupo_2

Figura 4.5: Representação gráfica dos três grupos, construídos através dos valores máximos das probabilidades preditivas de Y .

Uma vez obtidos os grupos desta forma, há que construir as fronteiras de cada um deles. Construiram-se duas linhas, cada uma delas definida inicialmente por uma matriz, para delimitar os grupos. Para tal transformou-se o gráfico anterior numa matriz de dimensão (20 × 20) de zeros, uns e dois de acordo com o grupo associado ao valor máximo da distribuição preditiva, aos quais se atribuiu uma cor, em termos gráficos: preto para o grupo 0, vermelho para o grupo 1, e verde para o grupo 2, como mostra a legenda da figura.

Nota: A dimensão destas matrizes, quer em linha, quer em coluna deve ser superior ao número de abcissas e ordenadas consideradas (parece que seria importante pensar em como automatizar estas dimensões) porque mesmo que dê origem a zeros fez-se uma instrução, no script, para os eliminar. De seguida, seleccionaram-se os pontos médios para ajustar a primeira linha, que é a que vai fazer a fronteira da parte relativa ao grupo 1 (cor vermelha) e posteriormente, de forma

análoga, ajustar a segunda linha. São obtidos primeiramente os pontos médios para ajustar a de- signada Linha 1 (primeira linha) e a denominada Linha 2 (segunda linha) é construída em função da Linha 1. Mais detalhadamente, cada ponto médio que formará um ponto “fronteiro”, obtém-se da seguinte forma: supondo, sem perda de generalidade, que se começa pelos pontos a vermelho, ou seja, pelo grupo 1, tenta encontrar-se um ponto médio, com dois pontos a vermelho que se encontram no limite da região por eles formada; consoante a melhor situação para encontrar o ponto “fronteiro”, determina-se o ponto médio de dois pontos vermelhos consecutivos dispostos horizontalmente (um imediatamente à direita do outro), ou dispostos verticalmente (um imedia- tamente acima do outro). Uma vez obtidos todos os pontos que delimitavam aproximadamente a região formada pelo Grupo 1, ajustou-se a designada Linha 1 aos referidos pontos, de uma forma suave, pretendendo com isto dizer-se que o ajuste foi efectuado utilizando da função loess do package stats do R; a designada Linha 2 foi ajustada segundo o mesmo procedimento do da Linha 1, usando a mesma função. Contudo esta linha não se construiu de forma completa, pois ’penetraria’ na região que já estava definida pela Linha 1 e deixar-se-ía de ter uma partição; só foi ajustada até ao ponto de interseção com a Linha 1 e, para tal, ainda teve que se acrescentar um ponto à Linha 2 para se efectuar essa ligação das duas (ponto de intersecção). Na função loess do R, o ajustamento é feito localmente, ou seja, ponto a ponto. Por exemplo, para o ajuste de uma determinada abcissa (x), ele é feito utilizando valores de x numa vizinhança da referida abcissa, ponderada pela distância à dita abcissa. A dimensão da vizinhança pode ser controlada através de um parâmetro desta função. Neste trabalho usou-se o parâmetro por defeito (default), onde o ajustamento é realizado, usando o método dos mínimos quadrados ponderados. O desejável, nesta abordagem, é que se automatizasse o número de linhas da matriz, bem como todo este processo de construção das linhas. Eis o resultado, na figura4.6.

-2 0 2 4 6 8 -2 0 2 4 6 8 X1 X2 linha_1 linha_2

Figura 4.6: Representação gráfica do ajustamento das linhas que delimitam os grupos.

gerados das distribuições preditivas (os designados dados_novos_3g, no script).: -4 -2 0 2 4 6 8 -4 -2 0 2 4 6 8 10 X1 X2 Treino_0 Treino_1 Treino_2

Figura 4.7: Representação gráfica da amostra de dados gerados das distribuições preditivas, juntamente com as linhas construídas na grelha.

A observação do gráfico faz parecer que a discriminação é bastante razoável.

De seguida, trabalhou-se com a amostra de teste que é constituída por todas as observações (3000) excepto as de treino (2250), pelo que a dimensão da amostra de teste é 750, tendo a seguinte composição: 76 no Grupo 0, 444 no Grupo 1 e 230 no Grupo 2.

A representação gráfica dos mesmos com as Linhas 1 e 2 encontra-se na figura4.8.

-4 -2 0 2 4 6 8 -4 -2 0 2 4 6 8 10 Amostra de Teste X1 X2 Teste_0 Teste_1 Teste_2

De seguida efectuaram-se as contagens das observaçõs Grupo/Retenção, primeiro para a amostra de dados gerados das preditivas, mais à frente para a amostra de teste. As contagens, para a amostra de dados gerados das preditivas encontram-se na tabela4.1.

Tabela 4.1: Contagens de observações do Grupo i e retidas no Grupo j, com i, j = 0, 1, 2.

C0 C1 C2

Y = 0 160 30 40

Y = 1 16 1298 16

Y = 2 28 32 630

De seguida a tabela das probabilidades preditivas conjuntas aproximadas, obtida dos valores da tabela4.8, dividindo pela dimensão da amostra de dados gerados das distribuições preditivas. Os valores das referidas probabilidades encontram-se na tabela4.2.

Tabela 4.2: Probabilidades conjuntas aproximadas das observações serem do Grupo i e serem retidas no Grupo j, com i, j = 0, 1, 2.

C0 C1 C2

Y = 0 0.0711 0.0133 0.0178

Y = 1 0.0071 0.5769 0.0071

Y = 2 0.0124 0.0142 0.2800

Nesta fase passa-se ao cálculo deCO, para avaliar o desempenho da metodologia. As primeiras a apresentar são as da tabela4.3.

Tabela 4.3: COdos tipos P(X ∈ Ci| D) e P(Y = i| D).

P(X ∈ Ci| D) P(Y = i| D)

i = 0 0.0907 0.1022

i = 1 0.6044 0.5911

i = 2 0.3049 0.3067

Os valores da tabela 4.3 estão de certa forma coerentes com o contexto do problema de

screening, ou seja, os valores das probabilidades preditivas futuras de um “indivíduo” pertencer a

cada um dos grupos estão próximos dos valores assumidos para as probabilidades da distribuição Dirichelet, respectivamente, θ0 = 0.1, θ1 = 0.6 e θ2= 0.3 e também similares aos da primeira

coluna, que representa o tamanho das regiões de especificação. Como já havia sido referido, é desejável que os valores dos tamanhos das regiões de especificação sejam próximos dos valores das probabilidades preditivas futuras de um ”indivíduo” pertencer a cada um dos respectivos grupos, visto pretender reter-se, em determinada região de especificação, o maior número de observações correspondentes ao grupo dessa região.

A tabela4.4apresenta as probabilidades preditivas condicionadas, (CO), do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2.

Tabela 4.4: COdo tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2.

P(Y = i|X ∈ C0;D) P(Y = i|X ∈ C1;D) P(Y = i|X ∈ C2;D)

Y = 0 0.7843 0.0221 0.0583

Y = 1 0.0784 0.9544 0.0233

Y = 2 0.1373 0.0235 0.9184

Mostra-se, de seguida uma representação gráfica denominada heatmap. Tem a vantagem de propiciar uma visualização bastante global, rápida e crítica dasCOem questão. Existe uma palete de cinquenta tonalidades que vão do branco (significa probabilidades próximas de zero) ao púrpura (tem o significado de probabilidades próximas de um), passando por tons de amarelo e vermelho e, portanto consegue percepcionar-se de forma quase imediata o comportamento dos valores das probabilidades em causa.

Nota: Foram escolhidas estas tonalidades mas poderiam ser outras quaisquer e o número de tonalidades não tem que ser igual a 50. Contudo, estas parecem tornar a visualização mais eficaz. É de referir também que como são cinquenta tons, eles mudam com relativa facilidade, acontecendo de duas em duas centésimas(1/50 = 0.02).

Eis a referida representação gráfica, na figura4.9.

C0 C1 C2 Y=2 Y=1 Y=0 0.137 0.024 0.918 0.078 0.954 0.023 0.784 0.022 0.058 0.2 0.4 0.6 0.8 Probabilidades

Figura 4.9: Representação gráfica dos valores das COda tabela anterior, P(Y = i|X ∈ Cj;D),

com i, j = 0, 1, 2.

Pela descrição deste tipo de representação gráfica, o desejável é ter a diagonal principal a púrpura, as segundas diagonais paralelas a esta com um tom amarelo claro ou tons esbran- quiçados e os cantos a branco. A discriminação perfeita seria com a diagonal toda a púrpura, com probabilidades iguais a um e o restante gráfico branco, com probabilidades iguais a zero. Neste caso, da Figura4.9tem-se a diagonal com tons púrpura e vermelho tinto, com valores de

probabilidades acima de 0.9, excepto o primeiro elemento da diagonal, com um vermelho tinto, pois apresenta uma probabilidade de cerca de 0.78. Tem-se, também um amarelo bastante claro na posição[3, 1] da representação gráfica, em vez de um desejável branco. No cômputo geral, os valores das COem causa parecem bastante satisfatórios.

Segue-se a tabela4.5, com as COdo tipo P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2:

Tabela 4.5: COdos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2.

P(X ∈ Ci|Y = 0; D) P(X ∈ Ci|Y = 1; D) P(X ∈ Ci|Y = 2; D)

C0 0.6957 0.0120 0.0406

C1 0.1304 0.9759 0.0464

C2 0.1739 0.0120 0.9130

O heatmap correspondente, na figura4.10.

Y=0 Y=1 Y=2

C2 C1 C0 0.174 0.012 0.913 0.13 0.976 0.046 0.696 0.012 0.041 0.2 0.4 0.6 0.8 Probabilidades

Figura 4.10: Representação gráfica dos valores das COda tabela anterior, P(X ∈ Ci|Y = j; D),

para i, j = 0, 1, 2.

Nestas CO o cenário piora um pouco, pois tem-se duas posições amarelas,[2, 1] e [3, 1], se bem que destas duas posições esta cor é pior na posição[2, 1], pois os grupos estão mais “próximos”, e um vermelho, na primeira posição da diagonal, pois o valor da probabilidade respectiva não atinge os 0.7. Há que ter em atenção, que, pelas cores, parece termos uma situação menos satisfatória do que na realidade o é, pelo que já foi explicado sobre os tons da palete de cores.

Por último apresentam-se, na tabela4.6, COde interesse no contexto do problema de screening, pois têm a ver com erros de retenção e de classificação.

Tabela 4.6: COque traduzem outro tipo de erros na discriminação. P[Y = 0|(X ∈ C1∨X ∈ C2); D] 0.0342 P[Y = 1|(X ∈ C0∨X ∈ C2); D] 0.036 P[Y = 2|(X ∈ C0∨X ∈ C1); D] 0.0384 P[X ∈ C0|(Y = 1 ∨ Y = 2); D] 0.0218 P[X ∈ C1|(Y = 0 ∨ Y = 2); D] 0.0674 P[X ∈ C2|(Y = 0 ∨ Y = 1); D] 0.0462

As CO apresentadas na tabela 4.6 correspondem a erros na identificação do grupo ou em retenções incorrectas, como se referiu, porconseguinte, deverão apresentar valores o mais baixos possível. Verifica-se, pela observação da tabela que os valores são relativamente baixos, situação bastante favorável para o desempenho da metodologia. Para validar a metodologia obtiveram- se, para a amostra de teste, de forma análoga à da amostra de dados gerados da distribuição preditiva, o mesmo tipo de CO. Assim, apresentam-se, a seguir, as mesmas tabelas e gráficos mas considerando a amostra de teste. Primeiro a tabela4.7, relativa às contagens de grupo e retenção.

Tabela 4.7: Contagens de observações do Grupo i e retidas no Grupo j, com i, j = 0, 1, 2, na amostra de teste.

C0 C1 C2

Y = 0 55 2 19

Y = 1 0 439 5

Y = 2 16 4 210

Segue-se a tabela4.8, das probabilidades preditivas conjuntas.

Tabela 4.8: Probabilidades conjuntas aproximadas das observações serem do Grupo i e serem retidas no Grupo j, com i, j = 0, 1, 2, na amostra de teste.

C0 C1 C2

Y = 0 0.0733 0.0027 0.0253

Y = 1 0 0.5853 0.0067

Y = 2 0.0213 0.0053 0.28

Mostram-se, seguidamente, as probabilidades preditivas relativas ao tamanho das regiões de especificação e probabilidades preditivas de pertença a cada um dos três grupos, na tabela4.9.

Tabela 4.9: COdos tipos P(X ∈ Ci| D) e P(Y = i| D), na amostra de teste.

P(X ∈ Ci| D) P(Y = i| D)

i = 0 0.0947 0.1013

i = 1 0.5933 0.592

Podemos observar, na tabela4.9, um cenário muito idêntico ao correspondente na amostra dos dados gerados das distribuições preditivas, o que, para estas CO, valida de forma bastante boa, a metodologia de screening utilizada. Veja-se o que se passa para as outras CO, na tabela

4.10.

Tabela 4.10: COdo tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2, na amostra de teste.

C0 C1 C2

Y = 0 0.7746 0.0045 0.0812

Y = 1 0 0.9865 0.0214

Y = 2 0.2254 0.009 0.8974

Neste tipo de CO, há ligeiras diferenças em relação à amostra de dados gerados das distribuições preditivas: uns valores estão ligeiramente mais baixos (posições [1,1] [1,3], [3,1] e [3,3] da tabela), todos os outros são melhores. Os resultados são bastante satisfatórios e as alterações, para pior, em relação à amostra dos dados gerados das distribuições preditivas são, no geral, pouco significativas, mostrando um bom desempenho da metodologia. Observe-se o

heatmap correspondente à tabela4.10.

C0 C1 C2 Y=2 Y=1 Y=0 0.225 0.009 0.897 0 0.987 0.021 0.775 0.004 0.081 0 0.2 0.4 0.6 0.8 Probabilidades

Figura 4.11: Representação gráfica dos valores das COanteriores, na amostra de teste.

Passando a outro tipo de CO, os resultados obtidos foram os obtidos na tabela4.11. Tabela 4.11: COdos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2, na amostra de teste.

Y = 0 Y = 2 Y = 1

C0 0.7237 0 0.0696

C2 0.0263 0.9887 0.0174

Neste caso, as alterações em relação à amostra de dados gerados das distribuições preditivas, são maioritariamente para melhor, pelo que, também nesta situação, o desempenho da metodologia se revela bastante satisfatório. Veja-se o heatmap correspondente à tabela4.11.

Y=0 Y=1 Y=2

C2 C1 C0 0.25 0.011 0.913 0.026 0.989 0.017 0.724 0 0.07 0 0.2 0.4 0.6 0.8 Probabilidades

Figura 4.12: Representação gráfica dos valores das COanteriores, na amostra de teste.

No que diz respeito às COque representam erros na discriminação, os valores obtidos, para a amostra de teste, foram os que se mostram na tabela4.12.

Tabela 4.12: COque traduzem erros na discriminação, na amostra de teste. P[Y = 0|(X ∈ C1∨X ∈ C2); D] 0.0309 P[Y = 1|(X ∈ C0∨X ∈ C2); D] 0.0164 P[Y = 2|(X ∈ C0∨X ∈ C1); D] 0.0388 P[X ∈ C0|(Y = 1 ∨ Y = 2); D] 0.0237 P[X ∈ C1|(Y = 0 ∨ Y = 2); D] 0.0196 P[X ∈ C2|(Y = 0 ∨ Y = 1); D] 0.0442

Os valores da tabela4.12são praticamente iguais aos obtidos com a amostra de dados gerados das distribuições preditivas.

Pode, então considerar-se que a metodologia screening aplicada é, de forma muito satisfatória, validada na amostra de teste.

Contudo, esta abordagem apresenta duas limitações que se prendem com o facto de as linhas delimitadoras das regiões de especificação não serem de construção automática e com o facto de todos os grupos serem tratados com igual prioridade. Se esta prioridade existir, como faz sentido pensar que surja, em casos de natureza prática, ela não é tida em conta. Se o suporte de X exigir uma grelha com muitos pontos ou se for útil afinar a grelha de forma a resultar um elevado número de pontos a obtenção dos pontos “fronteiros” torna-se uma tarefa árdua. No que diz respeito à construção não automática das linhas decorre na maior parte do problema

anterior. Além disso, na maioria das situações não se dispõe da expressão analítica destas linhas ou classificadores.