Le "Je" et ses appartenances brisées

Dynamique élargie des liens

1- Le "Je" et ses appartenances brisées

A metodologia que se propõe de seguida, agrupa os “indivíduos” segundo os valores máximos das probabilidades preditivas de Y , P_{(Y = y|(x}1, x2), D), y = 0, 1, 2, para os pontos da grelha:

-2 0 2 4 6 8 -2 0 2 4 6 8 X1 X2 Grupo_1 Grupo_0 Grupo_2

Figura 4.5: Representação gráfica dos três grupos, construídos através dos valores máximos das probabilidades preditivas de Y .

Uma vez obtidos os grupos desta forma, há que construir as fronteiras de cada um deles. Construiram-se duas linhas, cada uma delas definida inicialmente por uma matriz, para delimitar os grupos. Para tal transformou-se o gráfico anterior numa matriz de dimensão (20 × 20) de zeros, uns e dois de acordo com o grupo associado ao valor máximo da distribuição preditiva, aos quais se atribuiu uma cor, em termos gráficos: preto para o grupo 0, vermelho para o grupo 1, e verde para o grupo 2, como mostra a legenda da figura.

Nota: A dimensão destas matrizes, quer em linha, quer em coluna deve ser superior ao número de abcissas e ordenadas consideradas (parece que seria importante pensar em como automatizar estas dimensões) porque mesmo que dê origem a zeros fez-se uma instrução, no script, para os eliminar. De seguida, seleccionaram-se os pontos médios para ajustar a primeira linha, que é a que vai fazer a fronteira da parte relativa ao grupo 1 (cor vermelha) e posteriormente, de forma

análoga, ajustar a segunda linha. São obtidos primeiramente os pontos médios para ajustar a designada Linha 1 (primeira linha) e a denominada Linha 2 (segunda linha) é construída em função da Linha 1. Mais detalhadamente, cada ponto médio que formará um ponto “fronteiro”, obtém-se da seguinte forma: supondo, sem perda de generalidade, que se começa pelos pontos a vermelho, ou seja, pelo grupo 1, tenta encontrar-se um ponto médio, com dois pontos a vermelho que se encontram no limite da região por eles formada; consoante a melhor situação para encontrar o ponto “fronteiro”, determina-se o ponto médio de dois pontos vermelhos consecutivos dispostos horizontalmente (um imediatamente à direita do outro), ou dispostos verticalmente (um imediatamente acima do outro). Uma vez obtidos todos os pontos que delimitavam aproximadamente a região formada pelo Grupo 1, ajustou-se a designada Linha 1 aos referidos pontos, de uma forma suave, pretendendo com isto dizer-se que o ajuste foi efectuado utilizando da função loess do package stats do R; a designada Linha 2 foi ajustada segundo o mesmo procedimento do da Linha 1, usando a mesma função. Contudo esta linha não se construiu de forma completa, pois ’penetraria’ na região que já estava definida pela Linha 1 e deixar-se-ía de ter uma partição; só foi ajustada até ao ponto de interseção com a Linha 1 e, para tal, ainda teve que se acrescentar um ponto à Linha 2 para se efectuar essa ligação das duas (ponto de intersecção). Na função loess do R, o ajustamento é feito localmente, ou seja, ponto a ponto. Por exemplo, para o ajuste de uma determinada abcissa (x), ele é feito utilizando valores de x numa vizinhança da referida abcissa, ponderada pela distância à dita abcissa. A dimensão da vizinhança pode ser controlada através de um parâmetro desta função. Neste trabalho usou-se o parâmetro por defeito (default), onde o ajustamento é realizado, usando o método dos mínimos quadrados ponderados. O desejável, nesta abordagem, é que se automatizasse o número de linhas da matriz, bem como todo este processo de construção das linhas. Eis o resultado, na figura4.6.

-2 0 2 4 6 8 -2 0 2 4 6 8 X1 X2 linha_1 linha_2

Figura 4.6: Representação gráfica do ajustamento das linhas que delimitam os grupos.

gerados das distribuições preditivas (os designados dados_novos_3g, no script).: -4 -2 0 2 4 6 8 -4 -2 0 2 4 6 8 10 X1 X2 Treino_0 Treino_1 Treino_2

Figura 4.7: Representação gráfica da amostra de dados gerados das distribuições preditivas, juntamente com as linhas construídas na grelha.

A observação do gráfico faz parecer que a discriminação é bastante razoável.

De seguida, trabalhou-se com a amostra de teste que é constituída por todas as observações (3000) excepto as de treino (2250), pelo que a dimensão da amostra de teste é 750, tendo a seguinte composição: 76 no Grupo 0, 444 no Grupo 1 e 230 no Grupo 2.

A representação gráfica dos mesmos com as Linhas 1 e 2 encontra-se na figura4.8.

-4 -2 0 2 4 6 8 -4 -2 0 2 4 6 8 10 Amostra de Teste X1 X2 Teste_0 Teste_1 Teste_2

De seguida efectuaram-se as contagens das observaçõs Grupo/Retenção, primeiro para a amostra de dados gerados das preditivas, mais à frente para a amostra de teste. As contagens, para a amostra de dados gerados das preditivas encontram-se na tabela4.1.

Tabela 4.1: Contagens de observações do Grupo i e retidas no Grupo j, com i, j = 0, 1, 2.

C0 C1 C2

Y = 0 160 30 40

Y = 1 16 1298 16

Y = 2 28 32 630

De seguida a tabela das probabilidades preditivas conjuntas aproximadas, obtida dos valores da tabela4.8, dividindo pela dimensão da amostra de dados gerados das distribuições preditivas. Os valores das referidas probabilidades encontram-se na tabela4.2.

Tabela 4.2: Probabilidades conjuntas aproximadas das observações serem do Grupo i e serem retidas no Grupo j, com i, j = 0, 1, 2.

C0 C1 C2

Y = 0 0.0711 0.0133 0.0178

Y = 1 0.0071 0.5769 0.0071

Y = 2 0.0124 0.0142 0.2800

Nesta fase passa-se ao cálculo deCO, para avaliar o desempenho da metodologia. As primeiras a apresentar são as da tabela4.3.

Tabela 4.3: COdos tipos P_{(X ∈ C}i| D) e P(Y = i| D).

P(X ∈ Ci| D) P(Y = i| D)

i = 0 0.0907 0.1022

i = 1 0.6044 0.5911

i = 2 0.3049 0.3067

Os valores da tabela 4.3 estão de certa forma coerentes com o contexto do problema de

screening, ou seja, os valores das probabilidades preditivas futuras de um “indivíduo” pertencer a

cada um dos grupos estão próximos dos valores assumidos para as probabilidades da distribuição Dirichelet, respectivamente, θ0 = 0.1, θ1 = 0.6 e θ2= 0.3 e também similares aos da primeira

coluna, que representa o tamanho das regiões de especificação. Como já havia sido referido, é desejável que os valores dos tamanhos das regiões de especificação sejam próximos dos valores das probabilidades preditivas futuras de um ”indivíduo” pertencer a cada um dos respectivos grupos, visto pretender reter-se, em determinada região de especificação, o maior número de observações correspondentes ao grupo dessa região.

A tabela4.4apresenta as probabilidades preditivas condicionadas, (CO), do tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2.

Tabela 4.4: COdo tipo P_{(Y = i|X ∈ C}j;D), com i, j = 0, 1, 2.

P_{(Y = i|X ∈ C}0;D) P(Y = i|X ∈ C1;D) P(Y = i|X ∈ C2;D)

Y = 0 0.7843 0.0221 0.0583

Y = 1 0.0784 0.9544 0.0233

Y = 2 0.1373 0.0235 0.9184

Mostra-se, de seguida uma representação gráfica denominada heatmap. Tem a vantagem de propiciar uma visualização bastante global, rápida e crítica dasCOem questão. Existe uma palete de cinquenta tonalidades que vão do branco (significa probabilidades próximas de zero) ao púrpura (tem o significado de probabilidades próximas de um), passando por tons de amarelo e vermelho e, portanto consegue percepcionar-se de forma quase imediata o comportamento dos valores das probabilidades em causa.

Nota: Foram escolhidas estas tonalidades mas poderiam ser outras quaisquer e o número de tonalidades não tem que ser igual a 50. Contudo, estas parecem tornar a visualização mais eficaz. É de referir também que como são cinquenta tons, eles mudam com relativa facilidade, acontecendo de duas em duas centésimas_{(1/50 = 0.02).}

Eis a referida representação gráfica, na figura4.9.

C0 C1 C2 Y=2 Y=1 Y=0 0.137 0.024 0.918 0.078 0.954 0.023 0.784 0.022 0.058 0.2 0.4 0.6 0.8 Probabilidades

Figura 4.9: Representação gráfica dos valores das COda tabela anterior, P(Y = i|X ∈ Cj;D),

com i, j = 0, 1, 2.

Pela descrição deste tipo de representação gráfica, o desejável é ter a diagonal principal a púrpura, as segundas diagonais paralelas a esta com um tom amarelo claro ou tons esbran- quiçados e os cantos a branco. A discriminação perfeita seria com a diagonal toda a púrpura, com probabilidades iguais a um e o restante gráfico branco, com probabilidades iguais a zero. Neste caso, da Figura4.9tem-se a diagonal com tons púrpura e vermelho tinto, com valores de

probabilidades acima de 0.9, excepto o primeiro elemento da diagonal, com um vermelho tinto, pois apresenta uma probabilidade de cerca de 0.78. Tem-se, também um amarelo bastante claro na posição[3, 1] da representação gráfica, em vez de um desejável branco. No cômputo geral, os valores das COem causa parecem bastante satisfatórios.

Segue-se a tabela4.5, com as COdo tipo P_{(X ∈ C}i|Y = j; D), para i, j = 0, 1, 2:

Tabela 4.5: COdos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2.

P(X ∈ Ci|Y = 0; D) P(X ∈ Ci|Y = 1; D) P(X ∈ Ci|Y = 2; D)

C0 0.6957 0.0120 0.0406

C1 0.1304 0.9759 0.0464

C2 0.1739 0.0120 0.9130

O heatmap correspondente, na figura4.10.

Y=0 Y=1 Y=2

C2 C1 C0 0.174 0.012 0.913 0.13 0.976 0.046 0.696 0.012 0.041 0.2 0.4 0.6 0.8 Probabilidades

Figura 4.10: Representação gráfica dos valores das COda tabela anterior, P(X ∈ Ci|Y = j; D),

para i, j = 0, 1, 2.

Nestas CO o cenário piora um pouco, pois tem-se duas posições amarelas,_{[2, 1] e [3, 1],} se bem que destas duas posições esta cor é pior na posição_{[2, 1], pois os grupos estão mais} “próximos”, e um vermelho, na primeira posição da diagonal, pois o valor da probabilidade respectiva não atinge os 0.7. Há que ter em atenção, que, pelas cores, parece termos uma situação menos satisfatória do que na realidade o é, pelo que já foi explicado sobre os tons da palete de cores.

Por último apresentam-se, na tabela4.6, COde interesse no contexto do problema de screening, pois têm a ver com erros de retenção e de classificação.

Tabela 4.6: COque traduzem outro tipo de erros na discriminação. P_{[Y = 0|(X ∈ C}1∨X ∈ C2); D] 0.0342 P[Y = 1|(X ∈ C0∨X ∈ C2); D] 0.036 P[Y = 2|(X ∈ C0∨X ∈ C1); D] 0.0384 P_{[X ∈ C}0|(Y = 1 ∨ Y = 2); D] 0.0218 P[X ∈ C1|(Y = 0 ∨ Y = 2); D] 0.0674 P[X ∈ C2|(Y = 0 ∨ Y = 1); D] 0.0462

As CO apresentadas na tabela 4.6 correspondem a erros na identificação do grupo ou em retenções incorrectas, como se referiu, porconseguinte, deverão apresentar valores o mais baixos possível. Verifica-se, pela observação da tabela que os valores são relativamente baixos, situação bastante favorável para o desempenho da metodologia. Para validar a metodologia obtiveram- se, para a amostra de teste, de forma análoga à da amostra de dados gerados da distribuição preditiva, o mesmo tipo de CO. Assim, apresentam-se, a seguir, as mesmas tabelas e gráficos mas considerando a amostra de teste. Primeiro a tabela4.7, relativa às contagens de grupo e retenção.

Tabela 4.7: Contagens de observações do Grupo i e retidas no Grupo j, com i, j = 0, 1, 2, na amostra de teste.

C0 C1 C2

Y = 0 55 2 19

Y = 1 0 439 5

Y = 2 16 4 210

Segue-se a tabela4.8, das probabilidades preditivas conjuntas.

Tabela 4.8: Probabilidades conjuntas aproximadas das observações serem do Grupo i e serem retidas no Grupo j, com i, j = 0, 1, 2, na amostra de teste.

C0 C1 C2

Y = 0 0.0733 0.0027 0.0253

Y = 1 0 0.5853 0.0067

Y = 2 0.0213 0.0053 0.28

Mostram-se, seguidamente, as probabilidades preditivas relativas ao tamanho das regiões de especificação e probabilidades preditivas de pertença a cada um dos três grupos, na tabela4.9.

Tabela 4.9: COdos tipos P(X ∈ Ci| D) e P(Y = i| D), na amostra de teste.

P(X ∈ Ci| D) P(Y = i| D)

i = 0 0.0947 0.1013

i = 1 0.5933 0.592

Podemos observar, na tabela4.9, um cenário muito idêntico ao correspondente na amostra dos dados gerados das distribuições preditivas, o que, para estas CO, valida de forma bastante boa, a metodologia de screening utilizada. Veja-se o que se passa para as outras CO, na tabela

4.10.

Tabela 4.10: COdo tipo P(Y = i|X ∈ Cj;D), com i, j = 0, 1, 2, na amostra de teste.

C0 C1 C2

Y = 0 0.7746 0.0045 0.0812

Y = 1 0 0.9865 0.0214

Y = 2 0.2254 0.009 0.8974

Neste tipo de CO, há ligeiras diferenças em relação à amostra de dados gerados das distribuições preditivas: uns valores estão ligeiramente mais baixos (posições [1,1] [1,3], [3,1] e [3,3] da tabela), todos os outros são melhores. Os resultados são bastante satisfatórios e as alterações, para pior, em relação à amostra dos dados gerados das distribuições preditivas são, no geral, pouco significativas, mostrando um bom desempenho da metodologia. Observe-se o

heatmap correspondente à tabela4.10.

C0 C1 C2 Y=2 Y=1 Y=0 0.225 0.009 0.897 0 0.987 0.021 0.775 0.004 0.081 0 0.2 0.4 0.6 0.8 Probabilidades

Figura 4.11: Representação gráfica dos valores das COanteriores, na amostra de teste.

Passando a outro tipo de CO, os resultados obtidos foram os obtidos na tabela4.11. Tabela 4.11: COdos tipos P(X ∈ Ci|Y = j; D), para i, j = 0, 1, 2, na amostra de teste.

Y = 0 Y = 2 Y = 1

C0 0.7237 0 0.0696

C2 0.0263 0.9887 0.0174

Neste caso, as alterações em relação à amostra de dados gerados das distribuições preditivas, são maioritariamente para melhor, pelo que, também nesta situação, o desempenho da metodologia se revela bastante satisfatório. Veja-se o heatmap correspondente à tabela4.11.

Y=0 Y=1 Y=2

C2 C1 C0 0.25 0.011 0.913 0.026 0.989 0.017 0.724 0 0.07 0 0.2 0.4 0.6 0.8 Probabilidades

Figura 4.12: Representação gráfica dos valores das COanteriores, na amostra de teste.

No que diz respeito às COque representam erros na discriminação, os valores obtidos, para a amostra de teste, foram os que se mostram na tabela4.12.

Tabela 4.12: COque traduzem erros na discriminação, na amostra de teste. P[Y = 0|(X ∈ C1∨X ∈ C2); D] 0.0309 P_{[Y = 1|(X ∈ C}0∨X ∈ C2); D] 0.0164 P[Y = 2|(X ∈ C0∨X ∈ C1); D] 0.0388 P[X ∈ C0|(Y = 1 ∨ Y = 2); D] 0.0237 P_{[X ∈ C}1|(Y = 0 ∨ Y = 2); D] 0.0196 P[X ∈ C2|(Y = 0 ∨ Y = 1); D] 0.0442

Os valores da tabela4.12são praticamente iguais aos obtidos com a amostra de dados gerados das distribuições preditivas.

Pode, então considerar-se que a metodologia screening aplicada é, de forma muito satisfatória, validada na amostra de teste.

Contudo, esta abordagem apresenta duas limitações que se prendem com o facto de as linhas delimitadoras das regiões de especificação não serem de construção automática e com o facto de todos os grupos serem tratados com igual prioridade. Se esta prioridade existir, como faz sentido pensar que surja, em casos de natureza prática, ela não é tida em conta. Se o suporte de X exigir uma grelha com muitos pontos ou se for útil afinar a grelha de forma a resultar um elevado número de pontos a obtenção dos pontos “fronteiros” torna-se uma tarefa árdua. No que diz respeito à construção não automática das linhas decorre na maior parte do problema

anterior. Além disso, na maioria das situações não se dispõe da expressão analítica destas linhas ou classificadores.

Dans le document Les Liens d(e)ans l'écriture à « l’intersexion » de la double origine dans l’œuvre de Nina Bouraoui (Page 139-146)

Le "Je" et ses appartenances brisées

Dynamique élargie des liens

1- Le &#34;Je&#34; et ses appartenances brisées

1- Le "Je" et ses appartenances brisées