• Aucun résultat trouvé

Quando se realiza análise de dados com vistas a formulação de um modelo de regressão, duas etapas são fundamentais, o pré-processamento e a seleção das variáveis. Estas etapas devem ser realizadas com extremo cuidado para não comprometer o resultados. Nesse aspecto, nosso trabalho buscou preservar o conteúdo dos dados ao máximo possível. Somente para a variável Ideb foi realizada a imputação e de apenas 5 municípios.

O Modelo de regressão proposto e apresentado na equação (5.2) tem três variáveis explicativas, sendo de bases de dados diferentes. IDHM-R é da base de dados do IDHM e é obtida através dos valores respostas ao questionário da amostra do Censo Demográfico do IBGE. IDHM-R (Renda) corresponde à razão entre o somatório de todos os rendimentos de todos os indivíduos residentes no município, recebidos no mês anterior à data do Censo, e o número total desses indivíduos. Já MEDIA_PB foi levantada a partir da base de dados da Prova Brasil, que também é utilizada para construção do Ideb. Por fim, a Tem_IF_UF indica a presença de escola técnica federal no município ou não.

Esse fato de cada uma das variáveis ser de uma fonte de dados diferente é muito interessante, pois apesar do resultado do ENEM ser educacional, ele pode ser explicado, segundo o modelo proposto, por uma variável não educacionais e uma que apresenta certa relação com a área educacional que é a existência de escolas técnicas federais.

Tanto as florestas aleatórias quando a regressão linear múltipla apresentaram bons resultados para captar o modelo dos dados, contudo em função da pouca possibilidade de explicar os dados e dos maiores valores do EQM dos modelos de floresta aleatória, optou-se por adotar o modelo de regressão linear múltipla.

6 Considerações Finais

De acordo as análises e modelos propostos, podemos concluir que foi possível encontrar um modelo de regressão linear múltipla que explica razoavelmente os dados (R2 = 0,63) pela escolas do Rio Grande do Norte em função de dados obtidos por três

variáveis oriundas de três tipos de bases de dados diferentes de três anos antes (2011), atingindo assim os objetivos propostos neste trabalho.

A procura por modelos não se deu apenas pelo método mais tradicional que é o regressão linear múltipla, mas também pela Floresta Aleatória. Contudo, o método de regressão linear múltipla apresentou melhores resultados em termos de Erro quadrático médio.

As etapas de pré-processamento e seleção de variáveis foram muito importantes e contribuíram de forma decisiva para os resultados encontrados neste trabalho. A quantidade excessiva de variáveis foi contornada com duas metodologias de seleção de variáveis baseadas na correlação entre as variáveis.

Como continuidade deste trabalho, podemos destacar o teste de um outro conjunto de métodos visando encontrar um modelo com maior potencial explicativo, além de verificar se o modelo sugerido neste trabalho é adequado para outros anos, como por exemplo ENEM20151 x IDEB2012. Além disso, pode-se testar o modelo encontrado em outros

estados, regiões, ou mesmo no Brasil inteiro.

1 Os microdados do ENEM 2015 não estavam disponibilizados no início deste trabalho e foram disponi- bilizado no decorrer do mesmo.

A Apêndice

Tabela A.1 – Dicionário de Variáveis do ENEM2014. Nome da Variável Descrição

DADOS DE INSCRIÇÃO

NU_INSCRICAO Número de inscrição

NU_ANO Ano do Enem

COD_MUNICIPIO_RESIDENCIA Código do município de residência NO_MUNICIPIO_RESIDENCIA Nome do município de residência

COD_UF_RESIDENCIA Código da Unidade da Federação de

residência

UF_RESIDENCIA Sigla da Unidade da Federação de

residência

IN_ESTUDA_CLASSE_HOSPITALAR Indicador de inscrição em Unidade Hospitalar

DADOS DA ESCOLA

COD_ESCOLA Código da Escola

COD_MUNICIPIO_ESC Código do município da escola

NO_MUNICIPIO_ESC Nome do município da escola

COD_UF_ESC Código da Unidade da Federação da

escola

UF_ESC Sigla da Unidade da Federação da escola

ID_DEPENDENCIA_ADM_ESC Dependência administrativa (Escola)

ID_LOCALIZACAO_ESC Localização (Escola)

SIT_FUNC_ESC Situação de funcionamento (Escola)

DADOS DO CANDIDATO

IDADE Idade

TP_SEXO Sexo

NACIONALIDADE Nacionalidade

COD_MUNICIPIO_NASCIMENTO Código do município de nascimento NO_MUNICIPIO_NASCIMENTO Nome do município de nascimento

Tabela A.1 – Continuação da tabela da página anterior. Nome da Variável Descrição

COD_UF_NASCIMENTO Código da Unidade da Federação de

nascimento

UF_NASCIMENTO Sigla da Unidade da Federação de

nascimento

ST_CONCLUSAO Situação de conclusão do Ensino Médio

ANO_CONCLUIU Ano de Conclusão do Ensino Médio

TP_ESCOLA Tipo de escola do Ensino Médio

IN_TP_ENSINO Tipo de instituição que concluiu ou con- cluirá o Ensino Médio

TP_ESTADO_CIVIL Estado Civil

TP_COR_RACA Cor/raça

NECESSIDADES ESPECIAIS

IN_BAIXA_VISAO Indicador de baixa visão

IN_CEGUEIRA Indicador de cegueira

IN_SURDEZ Indicador de surdez

IN_DEFICIENCIA_AUDITIVA Indicador de deficiência auditiva IN_SURDO_CEGUEIRA Indicador de surdo-cegueira IN_DEFICIENCIA_FISICA Indicador de deficiência física IN_DEFICIENCIA_MENTAL Indicador de deficiência mental IN_DEFICIT_ATENCAO Indicador de déficit de atenção

IN_DISLEXIA Indicador de dislexia

IN_GESTANTE Indicador de gestante

IN_LACTANTE Indicador de lactante

IN_IDOSO Indicador de inscrito idoso

IN_AUTISMO Indicador de autismo

IN_SABATISTA Indicador de solicitação de prova apli- cada em horário diferenciado para os guardadores dos sábados

ATENDIMENTO NECESSIDADES ESPECIAIS

IN_BRAILLE Indicador de solicitação de prova em

braille

Tabela A.1 – Continuação da tabela da página anterior. Nome da Variável Descrição

IN_AMPLIADA_24 Indicador de solicitação de prova super ampliada com fonte tamanho 24 IN_AMPLIADA_18 Indicador de solicitação de prova prova

ampliada com fonte tamanho 18

IN_LEDOR Indicador de solicitação de auxílio de

ledor

IN_ACESSO Indicador de solicitação de sala de fácil

acesso

IN_TRANSCRICAO Indicador de solicitação de transcrição

IN_LIBRAS Indicador de solicitação de Libras

IN_LEITURA_LABIAL Indicador de solicitação de leitura labial IN_MESA_CADEIRA_RODAS Indicador de solicitação de cadeira de

rodas

IN_MESA_CADEIRA_SEPARADA Indicador de solicitação de cadeira separada

IN_APOIO_PERNA Indicador de solicitação de apoio de

perna

IN_GUIA_INTERPRETE Indicador de solicitação de guia

intérprete

DADOS CERTIFICAÇÃO ENSINO MÉDIO

IN_CERTIFICADO Indicador de solicitação de certificação no Ensino Médio

NO_ENTIDADE_CERTIFICACAO Nome da Entidade Certificadora COD_UF_ENTIDADE_CERTIFICACAO Código da Unidade da Federação da

Entidade Certificadora

UF_ENTIDADE_CERTIFICACAO Sigla da Unidade da Federação da Enti- dade Certificadora

DADOS LOCAL DE APLICAÇÃO DA PROVA

COD_MUNICIPIO_PROVA Código do município da aplicação da prova

NO_MUNICIPIO_PROVA Nome do município da aplicação da prova

COD_UF_PROVA Código da Unidade da Federação da

aplicação da prova

Tabela A.1 – Continuação da tabela da página anterior. Nome da Variável Descrição

UF_PROVA Sigla da Unidade da Federação da apli-

cação da prova DADOS DA PROVA OBJETIVA

IN_PRESENCA_CN Presença na prova objetiva de Ciências da Natureza

IN_PRESENCA_CH Presença na prova objetiva de Ciências Humanas

IN_PRESENCA_LC Presença na prova objetiva de Lingua- gens e Códigos

IN_PRESENCA_MT Presença na prova objetiva de

Matemática

ID_PROVA_CN Código do tipo de prova de Ciências da

Natureza

ID_PROVA_CH Código do tipo de prova de Ciências

Humanas

ID_PROVA_LC Código do tipo de prova de Linguagens

e Códigos

ID_PROVA_MT Código do tipo de prova de Matemática

NOTA_CN Nota da prova de Ciências da Natureza

NOTA_CH Nota da prova de Ciências Humanas

NOTA_LC Nota da prova de Linguagens e Códigos

NOTA_MT Nota da prova de Matemática

TX_RESPOSTAS_CN Vetor com as respostas da parte objetiva da prova de Ciências da Natureza TX_RESPOSTAS_CH Vetor com as respostas da parte objetiva

da prova de Ciências Humanas

TX_RESPOSTAS_LC Vetor com as respostas da parte objetiva da prova de Linguagens e Códigos TX_RESPOSTAS_MT Vetor com as respostas da parte objetiva

da prova de Matemática

TP_LINGUA Tipo de Língua Estrangeira

GABARITO_CN Vetor com o gabarito da parte objetiva

da prova de Ciências da Natureza Continua na próxima página.

Tabela A.1 – Continuação da tabela da página anterior. Nome da Variável Descrição

GABARITO_CH Vetor com o gabarito da parte objetiva

da prova de Ciências Humanas

GABARITO_LC Vetor com o gabarito da parte objetiva

da prova de Linguagens e Códigos

GABARITO_MT Vetor com o gabarito da parte objetiva

da prova de Matemática DADOS DA REDAÇÃO

IN_STATUS_REDACAO Situação da redação do participante

NU_NOTA_COMP1 Nota da competência 1

NU_NOTA_COMP2 Nota da competência 2

NU_NOTA_COMP3 Nota da competência 3

NU_NOTA_COMP4 Nota da competência 4

NU_NOTA_COMP5 Nota da competência 5

NU_NOTA_REDACAO Nota da prova de redação

Tabela A.2 – Dicionário de Variáveis do IDHM N Nome da Variável Descrição

1 UF Código utilizado pelo IBGE para identificação

do estado.

2 UFN Nome da Unidade da Federação.

3 CODMUN6 Código utilizado pelo IBGE para identificação do município.

4 CODMUN7 Código utilizado pelo IBGE para identificação do município(com digito verificador).

5 NOMEMUN Nome do município.

6 ESPVIDA Número médio de anos que as pessoas deverão viver a partir do nascimento, se permanece- rem constantes ao longo da vida o nível e o padrão de mortalidade por idade prevalecen- tes no ano do Censo.

7 FECTOT Número médio de filhos que uma mulher de-

verá ter ao terminar o período reprodutivo (15 a 49 anos de idade).

Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição

8 MORT1 Número de crianças que não deverão sobre-

viver ao primeiro ano de vida em cada 1000 crianças nascidas vivas.

9 MORT5 Probabilidade de morrer entre o nascimento

e a idade exata de 5 anos, por 1000 crianças nascidas vivas.

10 RAZDEP Razão de dependência é medida pela razão

entre o número de pessoas com 14 anos ou me- nos e de 65 anos ou mais de idade (população dependente) e o número de pessoas com idade de 15 a 64 anos (população potencialmente ativa) multiplicado por 100.

11 SOBRE40 Probabilidade de uma criança recém-nascida viver até os 40 anos, se permanecerem cons- tantes ao longo da vida o nível e o padrão de mortalidade por idade prevalecentes no ano do Censo.

12 SOBRE60 Probabilidade de uma criança recém-nascida viver até os 60 anos, se permanecerem cons- tantes ao longo da vida o nível e o padrão de mortalidade por idade prevalecentes no ano do Censo.

13 T_ENV Razão entre a população de 65 anos ou mais

de idade e a população total multiplicado por 100.

14 E_ANOSESTUDO Número médio de anos de estudo que uma geração de crianças que ingressa na escola deverá completar ao atingir 18 anos de idade, se os padrões atuais se mantiverem ao longo de sua vida escolar.

15 T_ANALF11A14 Razão entre a população de 11 a 14 anos de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.

Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição

16 T_ANALF15A17 Razão entre a população de 15 a 17 anos de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.

17 T_ANALF15M Razão entre a população de 15 anos ou mais de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.

18 T_ANALF18A24 Razão entre a população de 18 a 24 anos de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.

19 T_ANALF18M Razão entre a população de 18 anos ou mais de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.

20 T_ANALF25A29 Razão entre a população de 25 a 29 anos de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.

21 T_ANALF25M Razão entre a população de 25 anos ou mais de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta faixa etária multiplicado por 100.

Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição

22 T_ATRASO_0_BASICO Razão entre o número de pessoas de 6 a 17 anos frequentando o ensino básico regular seriado (fundamental + médio) sem atraso idade-série e o número total de pessoas nessa faixa etária frequentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série frequentada], na qual o número da série frequentada é 10, 11 e 12 para as pes- soas que frequentam a 1a, a 2a e a 3a séries do

ensino médio, respectivamente. Foram consi- deradas sem atraso não só as pessoas para as quais o resultado dessa fórmula foi igual a zero, mas também aquelas para as quais o resultado foi menor do que zero, ou seja, as pessoas com adiantamento idade-série. As pessoas de 6 a 14 anos frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental. As pessoas

de 15 a 17 anos frequentando a 4a série do en-

sino médio foram consideradas como já tendo concluído esse nível de ensino.

Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição

23 T_ATRASO_0_FUND Razão entre o número de pessoas de 6 a 14 anos frequentando o ensino fundamental regu- lar seriado sem atraso idade-série e o número total de pessoas nessa faixa etária frequen- tando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série fre- quentada] e foram consideradas sem atraso não só as pessoas para as quais o resultado dessa fórmula foi igual a zero, mas também aquelas para as quais o resultado foi menor do que zero, ou seja, as pessoas com adianta- mento idade-série. As pessoas de 6 a 14 anos frequentando a pré-escola foram considera- das como se estivessem no 1o ano do ensino

fundamental.

24 T_ATRASO_0_MED Razão entre o número de pessoas de 15 a 17 anos frequentando o ensino médio regular se- riado sem atraso idade-série e o número total de pessoas nessa faixa etária frequentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 14) - número da série frequentada] e foram consideradas sem atraso não só as pes- soas para as quais o resultado dessa fórmula foi igual a zero, mas também aquelas para as quais o resultado foi menor do que zero, ou seja, as pessoas com adiantamento idade-série. As pessoas de 15 a 17 anos frequentando a 4a série do ensino médio foram consideradas como já tendo concluído esse nível de ensino. Continua na próxima página.

Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição

25 T_ATRASO_1_BASICO Razão entre o número de pessoas de 6 a 17 anos frequentando o ensino básico regular seriado (fundamental + médio) com atraso idade-série de 1 ano e o número total de pes- soas nessa faixa etária frequentando esse ní- vel de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série frequentada], na qual o número da série frequentada é 10, 11 e 12 para as pessoas que frequentam a 1a, a 2a e

a 3a séries do ensino médio, respectivamente.

As pessoas de 6 a 14 anos frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental. As pessoas

de 15 a 17 anos frequentando a 4a série do en-

sino médio foram consideradas como já tendo concluído esse nível de ensino.

26 T_ATRASO_1_FUND Razão entre o número de pessoas de 6 a 14 anos frequentando o ensino fundamental regu- lar seriado com atraso idade-série de 1 ano e o número total de pessoas nessa faixa etária fre- quentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série frequen- tada]. As pessoas de 6 a 14 anos frequentando a pré-escola foram consideradas como se esti- vessem no 1o ano do ensino fundamental.

Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição

27 T_ATRASO_1_MED Razão entre o número de pessoas de 15 a 17 anos frequentando o ensino médio regular seriado com atraso idade-série de 1 ano e o número total de pessoas nessa faixa etária fre- quentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 14) - número da série fre- quentada]. As pessoas de 15 a 17 anos fre- quentando a 4a série do ensino médio foram

consideradas como já tendo concluído esse nível de ensino.

28 T_ATRASO_2_BASICO Razão entre o número de pessoas de 6 a 17 anos frequentando o ensino básico regular seriado (fundamental + médio) com atraso idade-série de 2 anos ou mais e o número to- tal de pessoas nessa faixa etária frequentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série frequentada], na qual o número da série frequentada é 10, 11 e 12 para as pessoas que frequentam a 1a, a 2a e a 3a séries do ensino médio, respectivamente. As pessoas de 6 a 14 anos frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental. As pessoas

de 15 a 17 anos frequentando a 4a série do en-

sino médio foram consideradas como já tendo concluído esse nível de ensino.

Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição

29 T_ATRASO_2_FUND Razão entre o número de pessoas de 6 a 14 anos frequentando o ensino fundamental re- gular seriado com atraso idade-série de 2 anos ou mais e o número total de pessoas nessa faixa etária frequentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 5) - número da série frequentada]. As pessoas de 6 a 14 anos frequentando a pré-escola foram conside- radas como se estivessem no 1o ano do ensino

fundamental.

30 T_ATRASO_2_MED Razão entre o número de pessoas de 15 a 17 anos frequentando o ensino médio regular se- riado com atraso idade-série de 2 anos e o número total de pessoas nessa faixa etária fre- quentando esse nível de ensino multiplicado por 100. O atraso idade-série é calculado pela fórmula: [(idade - 14) - número da série fre- quentada]. As pessoas de 15 a 17 anos fre- quentando a 4a série do ensino médio foram

consideradas como já tendo concluído esse nível de ensino.

31 T_FBBAS Razão entre o número total de pessoas de

qualquer idade frequentando o ensino básico (fundamental ou médio - regular ou seriado) e a população na faixa etária de 6 a 17 anos mul- tiplicado por 100. As pessoas frequentando a 4a série do ensino médio foram consideradas

como tendo concluído esse nível de ensino. As pessoas de 6 anos ou mais frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental.

Tabela A.2 – Continuação da tabela da página anterior. N Nome da Variável Descrição

32 T_FBFUND Razão entre o número total de pessoas de

qualquer idade frequentando o ensino funda- mental regular seriado e a população na faixa etária de 6 a 14 anos multiplicado por 100. As pessoas de 6 anos ou mais frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental.

33 T_FBMED Razão entre o número total de pessoas de

qualquer idade frequentando o ensino médio regular seriado e a população na faixa etá- ria de 15 a 17 anos multiplicado por 100. As pessoas frequentando a 4a série do ensino mé- dio foram consideradas como tendo concluído esse nível de ensino.

34 T_FBPRE Razão entre o número total de crianças de

até 5 anos de idade (somente 5 anos em 1991) frequentando a pré-escola e a população nessa mesma faixa etária multiplicado por 100. As pessoas de 6 anos ou mais frequentando a pré- escola foram consideradas como se estivessem no 1o ano do ensino fundamental.

35 T_FBSUPER Razão entre o número total de pessoas de qualquer idade frequentando o ensino supe- rior (graduação, especialização, mestrado ou doutorado) e a população na faixa etária de 18 a 24 anos multiplicado por 100.

Tabela A.2 – Continuação da tabela da página anterior.