Le niveau bac+3 - La situation professionnelle en 2007

3. La situation professionnelle en 2007

3.3. Le niveau bac+3

A pergunta é: qual a maneira mais adequada de incluir distritos e partidos na explicação da reeleição parlamentar? Duas estratégias podem ser pensadas: 1) incluí-los como variáveis de controle; 2) incluí-los como níveis de análise. De certa forma, a primeira estratégia foi executada por Pereira e Rennó (2001; 2007). Por exemplo, eles computaram alguns atributos dos partidos junto a outras variáveis consideradas determinantes da reeleição parlamentar.93

Contrariamente, não há registro da utilização da segunda estratégia. Mas, existe diferença substantiva entre elas? Para responder a essa questão é preciso evidenciar a diferença entre o modelo de regressão (linear) e o modelo hierárquico.94

Do Linear ao hierárquico: principais diferenças

De acordo com Pallant (2007), a “regressão múltipla não é apenas uma técnica, mas uma família de técnicas que pode ser usada para explorar a relação entre uma variável dependente contínua e um número de variáveis independentes ou preditoras” (p.146). O objetivo é utilizar a correlação linear entre uma variável dependente Y e Xn variáveis

independentes para predizer os valores da variável dependente (Y). Em termos mais técnicos, o modelo sintetiza a relação entre variáveis a partir de uma reta traçada no lugar que minimiza a soma dos quadrados dos resíduos. O modelo representa a correlação linear entre as variáveis (reta de regressão) e procura minimizar a diferença entre essa representação e os dados observados. A distância entre os pontos e a reta é os resíduos ou erros de estimação. O ajustamento do modelo é uma medida da minimização desses erros, quanto menor forem eles, melhor é o ajuste (Stock e Watson, 2004). Para ajudar no entendimento, o gráfico abaixo

93_{O capitulo 2 traz a lista completa das variáveis utilizadas para dizer a probabilidade da conquista da reeleição}

nesses e em outros trabalhos.

94_{A explicação foi desenvolvida com o modelo linear de MQO para tornar a exposição mais didática, mas a}

representa um modelo de regressão linear de mínimos quadrados ordinários com as variáveis: Receita de Campanha e Votos dos incumbents.

Grafico 5.2 - Modelo Regressão Linear – Votos e Receita de Campanha

Fonte: TSE

No gráfico acima, βo (constante ou intercepto) representa a quantidade de votos recebidos por um incumbent com receita média.95 Já β1 (efeito ou inclinação) é o efeito esperado no número de votos a cada um real a mais recebido pelo incumbent. Por fim, ϵ (erro ou resíduos) é a diferença entre o valor observado e o valor predito pelo modelo. Sendo assim, qualquer observação pode ser predita pelo modelo a partir da seguinte equação:

Yі = βo + β1Xі +

ϵ

Na prática, isso significa que o modelo trabalha com o pressuposto de que tanto o intercepto (βo) quanto o efeito (β1) são similares para todas as observações. Caso algum conjunto de dados, dentro da amostra analisada, apresente um padrão de relação diferente entre as variáveis, o referido pressuposto precisará ser revisto. Em termos técnicos, diz-se que não há homocedasticidade na distribuição dos resíduos. A distribuição dos resíduos não tem variância constante, consequentemente, apresenta um padrão dentre os valores preditos da variável

95_{Isso porque a variável receita de campanha (log) está centralizada pela média.}

βo β1

ϵ ϵ

dependente (Hair et al, 2006; Tabachick e Fidell, 2007). A figura abaixo, retirada do artigo de Britto, et al (2011 p. 91), ajuda a ilustrar esse ponto.

Figura 5.1 – Distribuição dos pontos estimados em torno da reta de resíduos

Fonte: Elaboração de Britto, et al (2011)

A figura A representa uma distribuição homocedástica, ou seja, os valores preditos e os resíduos padronizados estão distribuídos aleatoriamente, não constituem nenhum padrão de variância. Contrariamente, a figura B ilustra uma distribuição heterocedástica, claramente é possível observar que a variância dos resíduos é maior nos valores preditos mais altos. Uma forma alternativa de constatar essa variância é observar a inclinação da reta, quanto maior for a inclinação, menor a eficiência dos coeficientes de regressão e maior o erro da estimação (Britto, et al 2011). Para ser mais claro, a maior inclinação coloca em dúvida a capacidade do intercepto (βo) e do efeito (β1) serem bons estimadores.

Como é sabido, o modelo de regressão linear (MQO) precisa respeitar um conjunto bem mais amplo de pressupostos.96 Todavia, a variância constante dos resíduos é a principal diferença em relação ao modelo hierárquico. De acordo com Goldstein (1995) os modelos multiníveis surgiram para resolver o problema de heterocedasticidade. A ideia é trabalhar agrupamento dentro da amostra. O modelo parte do pressuposto de que existem estruturas que hierarquizam os casos (Gelman e Hill, 2006). Mais que isso, que essas estruturas implicam variações significativas do intercepto (βo) e do efeito (β1). Dessa forma, oferece mecanismos para estimar os estimadores (Raudensbush e Bryk, 2002). Por isso, constatar a variação dos estimadores (βo; β1) é o primeiro passo para verificar a necessidade de utilização de um modelo hierárquico (Goldstein, 1995). A figura 5.1 ajuda a entender melhor esse ponto.

Figura 5.2 – Votos e Log da Receita de Campanha (Incumbents MG e SP 2010)97 Minas Gerais –São Paulo

96_{De acordo com Lewis-Beck (1980) e Kennedy (2009) o modelo de MQO precisa respeitar dez pressupostos: (1)}

a relação entre a variável dependente e as variáveis independentes deve ser linear; (2) as variáveis foram medidas adequadamente, ou seja, assume-se que não há erro sistemático de mensuração; (3) a expectativa da média do termo de erro é igual a zero; (4) homocedasticidade, ou seja, a variância do termo de erro é constante para os diferentes valores da variável independente; (5) ausência de autocorrelação, ou seja, os termos de erros são independentes entre si; (6) a variável independente não deve ser correlacionada com o termo de erro; (7) nenhuma variável teoricamente relevante para explicar Y foi deixada de fora do modelo e nenhuma variável irrelevante para explicar Y foi incluída no modelo; (8) as variáveis independentes não apresentam alta correlação, o chamado pressuposto da não multicolinearidade; (9) assume-se que o termo de erro tem uma distribuição normal e (10) há uma adequada proporção entre o número de casos e o número de parâmetros estimados (Britto, et al 2011 p. 52).

97_{O exemplo é realizado com dados reais e com amostras aparadas, ou seja, foram retirados da amostra os outilers,}

Minas Gerais São Paulo

Fonte: TSE

Claramente, a reta do modelo geral (SP-MG) tem intercepto e inclinações diferentes dos modelos por estado (SP; MG). Mais que isso, pode-se dizer que os distritos de Minas Gerais e São Paulo em 2010 se diferenciam em dois aspectos. Primeiro, a média da receita em São Paulo é maior que a média em Minas Gerais. Essa constatação é retirada da diferença do intercepto nos dois distritos (βoSP > βoMG). Segundo, a capacidade preditiva da receita é maior em Minais.

Haja vista a diferença da inclinação da reta nos dois estados (β1MG > β1SP). Portanto, pode-se

dizer que nesse pleito os incumbents de São Paulo são mais homogênios que os incumbents de Minas Gerais em termos de receita de campanha (β1SP < β1MG).

Ao que parece, a relação receita-voto se diferencia entre dois dos maiores colégios eleitorais brasileiros. Isso tanto em termos de intercepto quanto de efeito. Na prática, esse é um pequeno sinal da necessidade de controlar essa variação na análise dos determinantes da reeleição parlamentar. Mais que isso, alerta para a possibilidade da relação receita-voto está sendo sub ou sobreestimada pelos modelos singulares. A utilização de um modelo hierárquico pode diminuir esse erro. Em especial, por permitir que o intercepto e o efeito sejam calculados por equações separadas do modelo geral. O procedimento pode ser descrito pelas seguintes equações:

μ

0j;

μ

1j). O modelo trabalha com intercepto e efeito

médios, que podem ser estimados por outras variáveis e termos de erro separados (Raudensbush e Bryk, 2002). Em geral, o pesquisador levanta variáveis do segundo nível para explicar a variação dos estimadores. Todavia, nada impede que ele utilize também variáveis do primeiro nível. Vale acrescentar, isso é possível porque o modelo hierárquico relaxa os pressupostos da independência das observações e da auto-correlação dos resíduos. Assim, a mesma variável pode ser utilizada para explicar a variação de componentes de níveis de análise distintos (Raudensbush e Bryk, 2002).

Em resumo, o modelo hierárquico oferece um conjunto de novas possibilidades. Primeiro, com ele é possível testar a hipótese de que o intercepto e/ou a inclinação da reta de regressão variam dentre as unidades de segundo nível. Em outros termos, pode-se testar a hipótese de que os estimadores da relação voto-receita variam significativamente dentre os distritos brasileiros. Caso a variação seja encontrada, também é possível desenhar equações que

tentem explicá-la. Tanto os aspectos dos distritos quanto as características dos incumbents podem ser utilizados nessa tentativa.

Dans le document De l'enseignement supérieur à l'emploi : voies rapides et chemins de traverse (Page 38-42)