Le phénomène de fontis
1.3 L’interaction sol-structure
1.3.1 Etude de la stabilité des cavités
1.3.1.2 Les approches analytiques
Para avaliar como a composição da despesa pública afeta a probabilidade de recondução do partido político do prefeito municipal, optou-se pela técnica de regressão logística, em função de fornecer outputs em termos de probabilidade, permitindo alcançar os objetivos da pesquisa. A escolha dessa técnica está alinhada às pesquisas internacionais (BRENDER; DRAZEN, 2008; ENKELMANN; LEIBRECHT, 2013) e nacionais (KLEIN, 2010; SAKURAI; MENENES-FILHO, 2008) que construíram relações da mesma natureza.
Como a variável dependente assume apenas os valores 0 e 1, o valor previsto (probabilidade) deve ser limitado ao mesmo intervalo. Para definir uma relação limitada entre 0 e 1, a regressão logística usa uma curva logística para representar a relação entre as variáveis dependente e independentes, conforme Figura 1. Em níveis muito baixos da variável independente, a probabilidade se aproxima de 0, mas nunca alcança tal valor. De forma análoga, com o aumento das variáveis independentes, os valores previstos crescem para acima da curva. Porém, a probabilidade nunca excederá o valor de 1 (HAIR JUNIOR et al., 2009).
Figura 1 – Relação entre variáveis dependentes e independentes
Fonte: Hair Junior et al. (2009).
A modelagem da probabilidade de sucesso no evento com um modelo linear é apresentada pela Equação 10.
𝑃𝑖 = 𝐸(𝑌 = 1|𝑥𝑖) = 𝛽0+ 𝛽1𝑥𝑖 + … + 𝛽𝑛𝑥𝑛 (10) Onde:
Y = escolha do indivíduo;
xi = variável que influencia diretamente a escolha do item i.
A utilização de um modelo linear implica que os valores previstos para Y poderiam ser maiores que 1 ou menores que 0 porque a expressão linear para o seu valor esperado é ilimitada (JOHNSON; WICHERN, 2007). Além disso, a natureza binária da variável dependente tem propriedades que violam as suposições da regressão linear. Primeiro, o termo de erro de uma variável discreta segue a distribuição binomial ao invés da normal, invalidando assim todos os testes estatísticos que se sustentam nas suposições de normalidade. Segundo, a variância de uma variável dicotômica não é constante, criando casos de heteroscedasticidade. Além disso, nenhuma violação pode ser remediada por meio de transformações das variáveis dependente ou independentes (HAIR JUNIOR et al., 2009).
Em função dessas limitações, o modelo logit não modela a probabilidade diretamente com um modelo linear. Em vez disso, efetua-se uma transformação logarítmica na variável dependente. Inicialmente, considera-se o odds ratio ou razão da chance, que nada mais é do que o quociente entre a probabilidade de ocorrência do evento e a probabilidade de não ocorrência.
𝑜𝑑𝑑𝑠 = 𝑃𝑖 1 − 𝑃𝑖
(11)
Nos modelos de regressão logística, transforma-se a razão da chance em uma variável de base logarítmica, que é chamada de logit e apresentada pela Equação 12.
𝑙𝑜𝑔𝑖𝑡 = 𝑙𝑛(𝑜𝑑𝑑𝑠) = 𝑙𝑛 ( 𝑃𝑖
1 − 𝑃𝑖) (12)
Considera-se que o logaritmo natural da razão da chance é linear nas variáveis independentes:
𝑙𝑛 ( 𝑃𝑖
1 − 𝑃𝑖) = 𝛽0+ 𝛽1𝑥𝑖+ … + 𝛽𝑛𝑥𝑛 (13)
Para trabalhar em termos de probabilidade, transforma-se o logit por meio de um processo de exponenciação, obtendo a função de distribuição logística, representada pela Equação 14. 𝑃𝑖 = 𝑒 (𝛽0+𝛽1𝑥𝑖+…+𝛽𝑛𝑥𝑛) 1 + 𝑒(𝛽0+𝛽1𝑥𝑖+…+𝛽𝑛𝑥𝑛) (14) Onde:
e = número irracional conhecido como número neperiano ou número de Euler, e consiste na base do logaritmo natural.
Pode-se simplificar a Equação 14 e escrevê-la da seguinte forma:
𝑃𝑖 = 1
1 + 𝑒−(𝛽0+𝛽1𝑥𝑖+…+𝛽𝑛𝑥𝑛) (15)
Observa-se que, no modelo logit, o logaritmo da razão da chance se relaciona linearmente com xi, enquanto no modelo de probabilidade linear existe uma relação linear entre Pi e xi. Em função disso, a interpretação dos coeficientes também difere entre os modelos logit e linear. Enquanto na regressão linear o coeficiente das variáveis significa a variação na variável dependente dada uma alteração unitária na independente (mantidas as demais constantes), na regressão logística o coeficiente estimado significa a variação no logit, ou seja, no logaritmo da razão da chance, dada uma variação unitária na variável independente (mantidas as demais constantes).
Os coeficientes das variáveis independentes são expressos nas formas original e exponenciada, também chamada de odds ratio. Conforme comentado, o coeficiente original é uma medida de variação no logaritmo da razão da chance e é útil para avaliar a direção da variação que as variáveis independentes provocam na dependente. Já a magnitude da variação é melhor avaliada pelo coeficiente exponenciado, que nada mais é do que uma transformação (antilogaritmo) do coeficiente logístico original. Por ser exponenciado, seu impacto é multiplicativo, o que significa que o efeito do coeficiente não é adicionado à variável dependente, mas multiplicado para cada variação unitária na variável independente (HAIR JUNIOR et al., 2009).
Em função da natureza não linear, o modelo logit utiliza o método da máxima verossimilhança para estimar os parâmetros do modelo. Os erros-padrão estimados são assintóticos e, consequentemente, deve-se empregar a estatística z (normal) para avaliar a significância dos parâmetros, diferindo, portanto, dos modelos lineares que utilizam a estatística t (GUJARATI; PORTER, 2011).
Para testar a hipótese nula de que todos os coeficientes angulares são simultaneamente iguais a 0, utilizou-se o teste da razão de verossimilhança (LR statistic). Essa estatística segue a distribuição χ2 com número de graus de liberdade igual ao número de variáveis explanatórias (GUJARATI; PORTER, 2011).
Para verificar o nível do ajustamento do modelo aos dados, ressalta-se que no modelo logit não existe um coeficiente de determinação, como nas regressões lineares. Porém, alguns indicadores podem cumprir um papel semelhante. Esta pesquisa adotou o teste Hosmer- Lemeshow e a estatística Count R2 para verificar o nível de ajustamento do modelo aos dados. O teste Hosmer-Lemeshow consiste em um teste de classificação no qual os casos são primeiramente divididos em aproximadamente dez classes iguais. Em seguida, os números de eventos reais e previstos são comparados em cada classe com a estatística qui-quadrado. Esse teste fornece uma medida ampla de precisão preditiva que é baseada não no valor de verossimilhança, mas sim na real previsão da variável dependente (HAIR JUNIOR et al., 2009). A hipótese nula do teste é que não há diferença entre os valores previstos pelo modelo e os valores reais. O número de graus liberdade corresponde ao número de classes, geralmente dez, menos dois.
Por fim, a última estatística de ajustamento do modelo aos dados é o Count R2, que consiste em um teste que adota, normalmente, o valor 0,5 como referência. Se o valor previsto pelo modelo for maior do que 0,5, classifica-se como 1; caso contrário, classifica-se como 0. Na sequência, comparam-se as previsões do modelo aos valores reais para apurar o número de
previsões corretas e divide-se pelo total de observações, conforme Equação 16. A estatística Count R2, pela metodologia simples, é menos precisa que o teste Hosmer-Lemeshow, porém, ainda assim, consiste em uma referência para verificar o nível de ajustamento do modelo aos dados.
𝐶𝑜𝑢𝑛𝑡 𝑅2 = 𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑃𝑟𝑒𝑣𝑖𝑠õ𝑒𝑠 𝐶𝑜𝑟𝑟𝑒𝑡𝑎𝑠
𝑁ú𝑚𝑒𝑟𝑜 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑂𝑏𝑠𝑒𝑟𝑣𝑎çõ𝑒𝑠 (16)