Quando se realiza análise de dados com vistas a formulação de um modelo de regressão, duas etapas são fundamentais, o pré-processamento e a seleção das variáveis. Estas etapas devem ser realizadas com extremo cuidado para não comprometer o resultados. Nesse aspecto, nosso trabalho buscou preservar o conteúdo dos dados ao máximo possível. Somente para a variável Ideb foi realizada a imputação e de apenas 5 municípios.
O Modelo de regressão proposto e apresentado na equação (5.2) tem três variáveis explicativas, sendo de bases de dados diferentes. IDHM-R é da base de dados do IDHM e é obtida através dos valores respostas ao questionário da amostra do Censo Demográfico do IBGE. IDHM-R (Renda) corresponde à razão entre o somatório de todos os rendimentos de todos os indivíduos residentes no município, recebidos no mês anterior à data do Censo, e o número total desses indivíduos. Já MEDIA_PB foi levantada a partir da base de dados da Prova Brasil, que também é utilizada para construção do Ideb. Por fim, a Tem_IF_UF indica a presença de escola técnica federal no município ou não.
Esse fato de cada uma das variáveis ser de uma fonte de dados diferente é muito interessante, pois apesar do resultado do ENEM ser educacional, ele pode ser explicado, segundo o modelo proposto, por uma variável não educacionais e uma que apresenta certa relação com a área educacional que é a existência de escolas técnicas federais.
Tanto as florestas aleatórias quando a regressão linear múltipla apresentaram bons resultados para captar o modelo dos dados, contudo em função da pouca possibilidade de explicar os dados e dos maiores valores do EQM dos modelos de floresta aleatória, optou-se por adotar o modelo de regressão linear múltipla.
6 Considerações Finais
De acordo as análises e modelos propostos, podemos concluir que foi possível encontrar um modelo de regressão linear múltipla que explica razoavelmente os dados (R2 = 0,63) pela escolas do Rio Grande do Norte em função de dados obtidos por três
variáveis oriundas de três tipos de bases de dados diferentes de três anos antes (2011), atingindo assim os objetivos propostos neste trabalho.
A procura por modelos não se deu apenas pelo método mais tradicional que é o regressão linear múltipla, mas também pela Floresta Aleatória. Contudo, o método de regressão linear múltipla apresentou melhores resultados em termos de Erro quadrático médio.
As etapas de pré-processamento e seleção de variáveis foram muito importantes e contribuíram de forma decisiva para os resultados encontrados neste trabalho. A quantidade excessiva de variáveis foi contornada com duas metodologias de seleção de variáveis baseadas na correlação entre as variáveis.
Como continuidade deste trabalho, podemos destacar o teste de um outro conjunto de métodos visando encontrar um modelo com maior potencial explicativo, além de verificar se o modelo sugerido neste trabalho é adequado para outros anos, como por exemplo ENEM20151 x IDEB2012. Além disso, pode-se testar o modelo encontrado em outros
estados, regiões, ou mesmo no Brasil inteiro.
1 Os microdados do ENEM 2015 não estavam disponibilizados no início deste trabalho e foram disponi- bilizado no decorrer do mesmo.
A Apêndice
Tabela A.1 – Dicionário de Variáveis do ENEM2014. Nome da Variável Descrição
DADOS DE INSCRIÇÃO
NU_INSCRICAO Número de inscrição
NU_ANO Ano do Enem
COD_MUNICIPIO_RESIDENCIA Código do município de residência NO_MUNICIPIO_RESIDENCIA Nome do município de residência
COD_UF_RESIDENCIA Código da Unidade da Federação de
residência
UF_RESIDENCIA Sigla da Unidade da Federação de
residência
IN_ESTUDA_CLASSE_HOSPITALAR Indicador de inscrição em Unidade Hospitalar
DADOS DA ESCOLA
COD_ESCOLA Código da Escola
COD_MUNICIPIO_ESC Código do município da escola
NO_MUNICIPIO_ESC Nome do município da escola
COD_UF_ESC Código da Unidade da Federação da
escola
UF_ESC Sigla da Unidade da Federação da escola
ID_DEPENDENCIA_ADM_ESC Dependência administrativa (Escola)
ID_LOCALIZACAO_ESC Localização (Escola)
SIT_FUNC_ESC Situação de funcionamento (Escola)
DADOS DO CANDIDATO
IDADE Idade
TP_SEXO Sexo
NACIONALIDADE Nacionalidade
COD_MUNICIPIO_NASCIMENTO Código do município de nascimento NO_MUNICIPIO_NASCIMENTO Nome do município de nascimento
Tabela A.1 – Continuação da tabela da página anterior. Nome da Variável Descrição
COD_UF_NASCIMENTO Código da Unidade da Federação de
nascimento
UF_NASCIMENTO Sigla da Unidade da Federação de
nascimento
ST_CONCLUSAO Situação de conclusão do Ensino Médio
ANO_CONCLUIU Ano de Conclusão do Ensino Médio
TP_ESCOLA Tipo de escola do Ensino Médio
IN_TP_ENSINO Tipo de instituição que concluiu ou con- cluirá o Ensino Médio
TP_ESTADO_CIVIL Estado Civil
TP_COR_RACA Cor/raça
NECESSIDADES ESPECIAIS
IN_BAIXA_VISAO Indicador de baixa visão
IN_CEGUEIRA Indicador de cegueira
IN_SURDEZ Indicador de surdez
IN_DEFICIENCIA_AUDITIVA Indicador de deficiência auditiva IN_SURDO_CEGUEIRA Indicador de surdo-cegueira IN_DEFICIENCIA_FISICA Indicador de deficiência física IN_DEFICIENCIA_MENTAL Indicador de deficiência mental IN_DEFICIT_ATENCAO Indicador de déficit de atenção
IN_DISLEXIA Indicador de dislexia
IN_GESTANTE Indicador de gestante
IN_LACTANTE Indicador de lactante
IN_IDOSO Indicador de inscrito idoso
IN_AUTISMO Indicador de autismo
IN_SABATISTA Indicador de solicitação de prova apli- cada em horário diferenciado para os guardadores dos sábados
ATENDIMENTO NECESSIDADES ESPECIAIS
IN_BRAILLE Indicador de solicitação de prova em
braille
Tabela A.1 – Continuação da tabela da página anterior. Nome da Variável Descrição
IN_AMPLIADA_24 Indicador de solicitação de prova super ampliada com fonte tamanho 24 IN_AMPLIADA_18 Indicador de solicitação de prova prova
ampliada com fonte tamanho 18
IN_LEDOR Indicador de solicitação de auxílio de
ledor
IN_ACESSO Indicador de solicitação de sala de fácil
acesso
IN_TRANSCRICAO Indicador de solicitação de transcrição
IN_LIBRAS Indicador de solicitação de Libras
IN_LEITURA_LABIAL Indicador de solicitação de leitura labial IN_MESA_CADEIRA_RODAS Indicador de solicitação de cadeira de
rodas
IN_MESA_CADEIRA_SEPARADA Indicador de solicitação de cadeira separada
IN_APOIO_PERNA Indicador de solicitação de apoio de
perna
IN_GUIA_INTERPRETE Indicador de solicitação de guia
intérprete
DADOS CERTIFICAÇÃO ENSINO MÉDIO
IN_CERTIFICADO Indicador de solicitação de certificação no Ensino Médio
NO_ENTIDADE_CERTIFICACAO Nome da Entidade Certificadora COD_UF_ENTIDADE_CERTIFICACAO Código da Unidade da Federação da
Entidade Certificadora
UF_ENTIDADE_CERTIFICACAO Sigla da Unidade da Federação da Enti- dade Certificadora
DADOS LOCAL DE APLICAÇÃO DA PROVA
COD_MUNICIPIO_PROVA Código do município da aplicação da prova
NO_MUNICIPIO_PROVA Nome do município da aplicação da prova
COD_UF_PROVA Código da Unidade da Federação da
aplicação da prova
Tabela A.1 – Continuação da tabela da página anterior. Nome da Variável Descrição
UF_PROVA Sigla da Unidade da Federação da apli-
cação da prova DADOS DA PROVA OBJETIVA
IN_PRESENCA_CN Presença na prova objetiva de Ciências da Natureza
IN_PRESENCA_CH Presença na prova objetiva de Ciências Humanas
IN_PRESENCA_LC Presença na prova objetiva de Lingua- gens e Códigos
IN_PRESENCA_MT Presença na prova objetiva de
Matemática
ID_PROVA_CN Código do tipo de prova de Ciências da
Natureza
ID_PROVA_CH Código do tipo de prova de Ciências
Humanas
ID_PROVA_LC Código do tipo de prova de Linguagens
e Códigos
ID_PROVA_MT Código do tipo de prova de Matemática
NOTA_CN Nota da prova de Ciências da Natureza
NOTA_CH Nota da prova de Ciências Humanas
NOTA_LC Nota da prova de Linguagens e Códigos
NOTA_MT Nota da prova de Matemática
TX_RESPOSTAS_CN Vetor com as respostas da parte objetiva da prova de Ciências da Natureza TX_RESPOSTAS_CH Vetor com as respostas da parte objetiva
da prova de Ciências Humanas
TX_RESPOSTAS_LC Vetor com as respostas da parte objetiva da prova de Linguagens e Códigos TX_RESPOSTAS_MT Vetor com as respostas da parte objetiva
da prova de Matemática
TP_LINGUA Tipo de Língua Estrangeira
GABARITO_CN Vetor com o gabarito da parte objetiva
da prova de Ciências da Natureza Continua na próxima página.
Tabela A.1 – Continuação da tabela da página anterior. Nome da Variável Descrição
GABARITO_CH Vetor com o gabarito da parte objetiva
da prova de Ciências Humanas
GABARITO_LC Vetor com o gabarito da parte objetiva
da prova de Linguagens e Códigos
GABARITO_MT Vetor com o gabarito da parte objetiva
da prova de Matemática DADOS DA REDAÇÃO
IN_STATUS_REDACAO Situação da redação do participante
NU_NOTA_COMP1 Nota da competência 1
NU_NOTA_COMP2 Nota da competência 2
NU_NOTA_COMP3 Nota da competência 3
NU_NOTA_COMP4 Nota da competência 4
NU_NOTA_COMP5 Nota da competência 5
NU_NOTA_REDACAO Nota da prova de redação
Tabela A.2 – Dicionário de Variáveis do IDHM N Nome da Variável Descrição
1 UF Código utilizado pelo IBGE para identificação
do estado.
2 UFN Nome da Unidade da Federação.
3 CODMUN6 Código utilizado pelo IBGE para identificação do município.
4 CODMUN7 Código utilizado pelo IBGE para identificação do município(com digito verificador).
5 NOMEMUN Nome do município.
6 ESPVIDA Número médio de anos que as pessoas deverão viver a partir do nascimento, se permanece- rem constantes ao longo da vida o nível e o padrão de mortalidade por idade prevalecen- tes no ano do Censo.
7 FECTOT Número médio de filhos que uma mulher de-
verá ter ao terminar o período reprodutivo (15 a 49 anos de idade).
Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição
8 MORT1 Número de crianças que não deverão sobre-
viver ao primeiro ano de vida em cada 1000 crianças nascidas vivas.
9 MORT5 Probabilidade de morrer entre o nascimento
e a idade exata de 5 anos, por 1000 crianças nascidas vivas.
10 RAZDEP Razão de dependência é medida pela razão
entre o número de pessoas com 14 anos ou me- nos e de 65 anos ou mais de idade (população dependente) e o número de pessoas com idade de 15 a 64 anos (população potencialmente ativa) multiplicado por 100.
11 SOBRE40 Probabilidade de uma criança recém-nascida viver até os 40 anos, se permanecerem cons- tantes ao longo da vida o nível e o padrão de mortalidade por idade prevalecentes no ano do Censo.
12 SOBRE60 Probabilidade de uma criança recém-nascida viver até os 60 anos, se permanecerem cons- tantes ao longo da vida o nível e o padrão de mortalidade por idade prevalecentes no ano do Censo.
13 T_ENV Razão entre a população de 65 anos ou mais
de idade e a população total multiplicado por 100.
14 E_ANOSESTUDO Número médio de anos de estudo que uma geração de crianças que ingressa na escola deverá completar ao atingir 18 anos de idade, se os padrões atuais se mantiverem ao longo de sua vida escolar.
15 T_ANALF11A14 Razão entre a população de 11 a 14 anos de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.
Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição
16 T_ANALF15A17 Razão entre a população de 15 a 17 anos de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.
17 T_ANALF15M Razão entre a população de 15 anos ou mais de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.
18 T_ANALF18A24 Razão entre a população de 18 a 24 anos de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.
19 T_ANALF18M Razão entre a população de 18 anos ou mais de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.
20 T_ANALF25A29 Razão entre a população de 25 a 29 anos de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.
21 T_ANALF25M Razão entre a população de 25 anos ou mais de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.
Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição
22 T_ATRASO_0_BASICO Razão entre o número de pessoas de 6 a 17 anos frequentando o ensino básico regular seriado (fundamental + médio) sem atraso idade-série e o número total de pessoas nessa faixa etária frequentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série frequentada], na qual o número da série frequentada é 10, 11 e 12 para as pes- soas que frequentam a 1a, a 2a e a 3a séries do
ensino médio, respectivamente. Foram consi- deradas sem atraso não só as pessoas para as quais o resultado dessa fórmula foi igual a zero, mas também aquelas para as quais o resultado foi menor do que zero, ou seja, as pessoas com adiantamento idade-série. As pessoas de 6 a 14 anos frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental. As pessoas
de 15 a 17 anos frequentando a 4a série do en-
sino médio foram consideradas como já tendo concluído esse nível de ensino.
Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição
23 T_ATRASO_0_FUND Razão entre o número de pessoas de 6 a 14 anos frequentando o ensino fundamental regu- lar seriado sem atraso idade-série e o número total de pessoas nessa faixa etária frequen- tando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série fre- quentada] e foram consideradas sem atraso não só as pessoas para as quais o resultado dessa fórmula foi igual a zero, mas também aquelas para as quais o resultado foi menor do que zero, ou seja, as pessoas com adianta- mento idade-série. As pessoas de 6 a 14 anos frequentando a pré-escola foram considera- das como se estivessem no 1o ano do ensino
fundamental.
24 T_ATRASO_0_MED Razão entre o número de pessoas de 15 a 17 anos frequentando o ensino médio regular se- riado sem atraso idade-série e o número total de pessoas nessa faixa etária frequentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 14) - número da série frequentada] e foram consideradas sem atraso não só as pes- soas para as quais o resultado dessa fórmula foi igual a zero, mas também aquelas para as quais o resultado foi menor do que zero, ou seja, as pessoas com adiantamento idade-série. As pessoas de 15 a 17 anos frequentando a 4a série do ensino médio foram consideradas como já tendo concluído esse nível de ensino. Continua na próxima página.
Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição
25 T_ATRASO_1_BASICO Razão entre o número de pessoas de 6 a 17 anos frequentando o ensino básico regular seriado (fundamental + médio) com atraso idade-série de 1 ano e o número total de pes- soas nessa faixa etária frequentando esse ní- vel de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série frequentada], na qual o número da série frequentada é 10, 11 e 12 para as pessoas que frequentam a 1a, a 2a e
a 3a séries do ensino médio, respectivamente.
As pessoas de 6 a 14 anos frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental. As pessoas
de 15 a 17 anos frequentando a 4a série do en-
sino médio foram consideradas como já tendo concluído esse nível de ensino.
26 T_ATRASO_1_FUND Razão entre o número de pessoas de 6 a 14 anos frequentando o ensino fundamental regu- lar seriado com atraso idade-série de 1 ano e o número total de pessoas nessa faixa etária fre- quentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série frequen- tada]. As pessoas de 6 a 14 anos frequentando a pré-escola foram consideradas como se esti- vessem no 1o ano do ensino fundamental.
Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição
27 T_ATRASO_1_MED Razão entre o número de pessoas de 15 a 17 anos frequentando o ensino médio regular seriado com atraso idade-série de 1 ano e o número total de pessoas nessa faixa etária fre- quentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 14) - número da série fre- quentada]. As pessoas de 15 a 17 anos fre- quentando a 4a série do ensino médio foram
consideradas como já tendo concluído esse nível de ensino.
28 T_ATRASO_2_BASICO Razão entre o número de pessoas de 6 a 17 anos frequentando o ensino básico regular seriado (fundamental + médio) com atraso idade-série de 2 anos ou mais e o número to- tal de pessoas nessa faixa etária frequentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série frequentada], na qual o número da série frequentada é 10, 11 e 12 para as pessoas que frequentam a 1a, a 2a e a 3a séries do ensino médio, respectivamente. As pessoas de 6 a 14 anos frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental. As pessoas
de 15 a 17 anos frequentando a 4a série do en-
sino médio foram consideradas como já tendo concluído esse nível de ensino.
Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição
29 T_ATRASO_2_FUND Razão entre o número de pessoas de 6 a 14 anos frequentando o ensino fundamental re- gular seriado com atraso idade-série de 2 anos ou mais e o número total de pessoas nessa faixa etária frequentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série frequentada]. As pessoas de 6 a 14 anos frequentando a pré-escola foram conside- radas como se estivessem no 1o ano do ensino
fundamental.
30 T_ATRASO_2_MED Razão entre o número de pessoas de 15 a 17 anos frequentando o ensino médio regular se- riado com atraso idade-série de 2 anos e o número total de pessoas nessa faixa etária fre- quentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 14) - número da série fre- quentada]. As pessoas de 15 a 17 anos fre- quentando a 4a série do ensino médio foram
consideradas como já tendo concluído esse nível de ensino.
31 T_FBBAS Razão entre o número total de pessoas de
qualquer idade frequentando o ensino básico (fundamental ou médio - regular ou seriado) e a população na faixa etária de 6 a 17 anos mul- tiplicado por 100. As pessoas frequentando a 4a série do ensino médio foram consideradas
como tendo concluído esse nível de ensino. As pessoas de 6 anos ou mais frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental.
Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição
32 T_FBFUND Razão entre o número total de pessoas de
qualquer idade frequentando o ensino funda- mental regular seriado e a população na faixa etária de 6 a 14 anos multiplicado por 100. As pessoas de 6 anos ou mais frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental.
33 T_FBMED Razão entre o número total de pessoas de
qualquer idade frequentando o ensino médio regular seriado e a população na faixa etá- ria de 15 a 17 anos multiplicado por 100. As pessoas frequentando a 4a série do ensino mé- dio foram consideradas como tendo concluído esse nível de ensino.
34 T_FBPRE Razão entre o número total de crianças de
até 5 anos de idade (somente 5 anos em 1991) frequentando a pré-escola e a população nessa mesma faixa etária multiplicado por 100. As pessoas de 6 anos ou mais frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental.
35 T_FBSUPER Razão entre o número total de pessoas de qualquer idade frequentando o ensino supe- rior (graduação, especialização, mestrado ou doutorado) e a população na faixa etária de 18 a 24 anos multiplicado por 100.
Tabela A.2 – Continuação da tabela da página anterior.