L’ ´evolution du cadre r ´eglementaire environnemental

125 Após a realização dos cálculos dessas três métricas ou indicadores relacionais (Densidade, Número de Cliques e Distância Geodésica) foi feita a articulação desses dados de redes com as notas de Português e de Matemática dos alunos amostrados nas duas escolas. Para fazer essa relação utilizou-se o modelo de regressão logística, o qual teve como variáveis respostas as notas de Português e de Matemática, e como variáveis explicativas, Densidade, Número de Cliques e Distância Geodésica.

Entretanto, esse modelo, para ser operacionalizado, levou em consideração alguns princípios estatísticos, tais como: a variável dependente deve ser dicotômica (Ex.: Sim/Não; Sucesso/insucesso; Vencedor/Perdedor, entre outros), cujas categorias representadas possam ser trabalhadas dentro do intervalo 0 e 1; a interpretação dos resultados fez-se à luz das noções de probabilidade e de razão de chance (Odds Ratio); e as mudanças verificadas na variável dependente, em função das variáveis explicativas, foram representadas graficamente por uma função sigmóidal (com a curva em formato de S, variando de 0 a 1). (DIAS FILHO e CORRAR, 2009).

Vale lembrar que o modelo de regressão logísitica deve ser interpretado em termos de probabilidade, ou seja, estimar a probabilidade de ocorrência de um evento a partir de um conjunto de variáveis explicativas (ROGERSON, 2012). Para melhor interpretação dos ressultados, converte-se a probabilidade de cada observação em razão de chance (Odds Ratio) :

𝑪𝒉𝒂𝒏𝒄𝒆 (𝑶𝒅𝒅𝒔) = 𝑷 (𝑺𝒖𝒄𝒆𝒔𝒔𝒐) 𝟏 − 𝑷 (𝑺𝒖𝒄𝒆𝒔𝒔𝒐)

Depois de se construir o modelo da razão de chance, a partir da noção de probabilidade, fez-se necessário a realização de um segundo procedimento metodológico, que é a linearização da função, a partir de uma transformação logística caracterizada pela aplicação do logaritmo natural da razão de chance:

126 Com base nessa transformação, assume-se que os logaritmos das chances crescem (ou decrescem) linearmente à medida que x cresce (ROGERSON, 2012). A adoção dessa estratégia além de servir como ferramenta de linearização da função faz com os valores da variável dependente fiquem realmente dentro do intervalo entre 0 e 1, evitando assim, a predição de valores menores que ultrapassem esse intervalo (DIAS FILHO e CORRAR, 2009).

No caso dos bancos de dados das duas escolas, a regressão logística foi desenvolvida da seguinte forma: As notas de Português e de Matemática são as variáveis dependentes, de caráter categórico. O processo de dicotomização levou em consideração o seguinte ponto de corte: Notas maiores ou iguais a 7,0 são categorizadas como “Sucesso” (N ≥ 7,0 = Sucesso = 1); e notas menores que 7,0 serão categorizadas como “Insucesso” (N < 7,0 = Insucesso = 0). Nesse caso foram desenvolvidos dois modelos de regressão para cada escola: um modelo tendo como variável resposta as notas de Português (Sucesso/Insucesso) e como variáveis explicativas Densidade, Número de Cliques e Distância Geodéscia; e o outro tendo como variável dependente Matemática e como variáveis independentes Densidade, Número de Cliques e Distância Geodéscia. Os gráficos 8 e 9 monstram a representação hipotética da função logística, tendo Português e Matemática como variáveis respostas.

Gráfico 8: Representação hipotética da função logística tendo Português como variável resposta.

Fonte: Elaborado pelo próprio autor com base em Dias Filho e Corrar (2009)

127

Gráfico 9: Representação hipotética da função logística tendo Matemática como variável resposta.

Fonte: Elaborado pelo próprio autor com base em Dias Filho e Corrar (2009)

O fato de envolver noções de probabilidade faz com que o comportamento dessa função, em relação à variável dependente, esteja enquadrado no intervalo entre 0 e 1. Além disso, o modelo logístico oferece a capacidade de se associar variáveis de diferentes tipos, uma vez que, Português e Matemática são categóricas dicotômicas, e os indicadores de rede (Densidade, Número de Cliques e Distância Geodésica) são de caráter métrico. A adoção desse modelo se justifica pelo fato dele ser um dos mais utilizados e apropriados para descrever a relação entre diversas variáveis independentes (X), com variável dependente dicotômica (RIBAS e VIEIRA, 2011).

Nesse sentido, foi através da regressão logística que procurou-se verificar qual a relação que existe entre desempenho escolar (médias finais de Português e Matemática) e redes pessoais (Densidade, Número de Cliques e Distância Geodésica). O processamento empírico desse modelo de regressão logística, e a consequente estimação de seus coeficientes, foi realizado por meio do software computacional Statístical Package for the Social Sciences (SPSS), uma vez que trata-se de uma análise multivariada que envolveu variáveis métricas e não métricas e as suas respectivas distribuições probabilísticas (DIAS FILHO e CORRAR, 2009; RIBAS e VIEIRA, 2011).

Para interpretar corretamente os resultados da regressão logística no SPSS, torna-se necessário realizar a leitura e interpretação de algumas medidas de

128 avaliação do modelo, apresentadas no output deste software. As medidas apresentadas são as seguintes: o coeficiente das variáveis incluidas no modelo (B), O erro Padrão (S.E), a estatística Wald, o P-valor, a exponencial do coeficiente das variáveis (Exp (B)), e o Intervalo de Confiança (IC) (DIAS FILHO e CORRAR, 2009).

Nesse sentido, com base em Morettin (2010); Dias Filho e Corrar (2009); e Rogerson (2012), será feita a descrição conceitual de cada uma dessas medidas: No caso dos coeficientes do modelo de regressão (B), eles devem ser interpretados como sendo uma estimativa do efeito de uma variável independente, sobre uma dependente, quando as demais se matêm inalteradas. Nesse caso específico, como o modelo de regressão envolve noções de Chance, o que é representado pela exponencial do coeficiente B, a qual informa o quanto as chances serão alteradas quando a variável independente é aumentada em uma unidade.

Além disso, é importante também enetender o erro padrão associado (S.E) associado a esses coeficientes. Assim, o erro padrão tem como função indicar o grau de aproximação entre os valores estimados pela regressão, com os valores observados na população (MORETTIN, 2010; DIAS FILHO e CORRAR, 2009; ROGERSON, 2012). A noção de erro sempre levar em consideração essa perspectiva estatísitica, ou seja, a diferença entre os valores estimados e os observados no âmbito de uma pesquisa.

Outra medida apresentada no output da regressão logística, é a estatística Wald. Esse inidicador, serve para avaliar a significância dos coeficientes de cada variável dependente presente no modelo, procurando colocar em evidência se eles são significativamente diferente de zero. Dessa maneira, quando se constata que os coeficientes das variáveis independentes não são nulos, chega-se a conclusão de que todas elas podem ser aproveitadas na composição do modelo (DIAS FILHO e CORRAR, 2009).

Além dessa estatísitca, há de se destacar também o valor-p apresentado nos resultados da regressão logística, o qual também desempenha papel relevante na definição da significância dos resultados do modelo. Essa medida, por sua vez, informa a probabilidade da hipótese nula ser considerada verdadeira, considerando um determinado nível de significância definido. Quando se define um nível de significância de 5% (0,05), por exemplo, e identifica-se valores p são menores que

129 isso, rejeita-se a hipótese nula, ou seja, comprova-se que os coeficientes não são nulos (ROGERSON, 2012).

E por último, o Intervalo de Confiança, que trata-se de um limite estabelecido estatisticamente, no qual espera-se esteja o verdadeiro valor do parâmetro. No contexto da regressão logística, espera-se que o intervalo de confiança definido, contenha o verdadeiro valor dos coeficientes das variáveis independentes, para que o modelo esteja ajustado corretamente (MORETTIN, 2010).

Através do entendimento dessas medidas, torna-se possível compreender os outputs da regressão logística, bem como, interpretar as relações entre as variáveis existentes. Esse processo de interpretação é de fundamental importância para se decidir se o modelo ajustado adequa-se corretamente, ou não, a análise multivariada do objeto de estudo. Nesse caso específico, a análise a ser realizada envolve variáveis relacionais e de desempenho escolar.

Dans le document EDF group - Reference Document 2005 (Page 57-60)