1. 3d-network
• Excluído atributo 1 original: OSM_ID. 2. air-c6h6
• Excluídas 9 colunas de leituras do sensor e das medidas reais, exceto C6H6(GT). • Excluídas 366 linhas com NA.
• Excluída coluna Date e adicionada coluna DayOfWeek do tipo Inteiro. • Coluna Time alterada do tipo Hora para o tipo Inteiro.
3. air-co
• Excluídas 9 colunas de leituras do sensor e das medidas reais, exceto CO(GT). • Excluídas 2.013 linhas com NA.
• Excluída coluna Date e adicionada coluna DayOfWeek do tipo Inteiro. • Coluna Time alterada do tipo Hora para o tipo Inteiro.
4. airfoil-noise
• Trocados separadores de tab para vírgula. 5. auto-mpg
• Atributo Nome foi excluído.
• O atributo ModelYear foi substituído por um atributo Age, subtraindo-se o ano de 82.
• Excluídas 6 linhas com NA. 6. automobile
• Excluída a original coluna 2 (normalized-losses) por possuir 41/206 NAs. • Excluídas 12 linhas com missing values.
7. bike-day
• Excluídos os atributos instant e dteday.
• Excluídos os targets casual e registered, sendo usado apenas o target cnt, que é a soma dos 2 anteriores.
8. bike-hour
• Excluídos os atributos instant e dteday.
• Excluídos os targets casual e registered, sendo usado apenas o target cnt, que é a soma dos 2 anteriores.
9. blog-feedback
• Utilizado apenas o dataset de treinamento fornecido e eliminados os de teste, ignorando assim o problema de sobreposição de tempo.
10. buzz-hardware • Sem alteração. 11. buzz-twitter
• Sem alteração. 12. coil-1
• Foram unicados os dados dos arquivos analysis.data e results.data. • Foram excluídas 34 linhas com NA.
• Foram excluídas 24 linhas com dados corrompidos.
• Foram excluídas 6 colunas de concentração de algas, exceto a primeira (1 de 7).
13. coil-2
• Foram unicados os dados dos arquivos analysis.data e results.data. • Foram excluídas 34 linhas com NA.
• Foram excluídas 24 linhas com dados corrompidos.
• Foram excluídas 6 colunas de concentração de algas, exceto a primeira (segunda de 7).
14. combined-plant
• Utilizada a primeira aba da planilha original (1 shue de 5). 15. communities-1
• Excluídas as colunas originais 98 a 118, 122 a 125 e 127, por excesso de NAs. • Excluída 1 linha por possuir NA.
16. communities-2
• Eliminadas as colunas de 1 a 5 por serem não preditivas. • Excluídas 1.675 linhas com NA, restando 319.
17. communities-nonviolent
• Excluídas as colunas 1 a 5 por serem não preditivas.
• Excluídas as colunas seguintes por excesso de NA: 104 a 120, 124 a 127, 129. • Excluídas 98 linhas com NA.
• Utilizado como target taxa de crimes não violentos. 18. communities-violent
• Excluídas as colunas 1 a 5 por serem não preditivas.
• Excluídas as colunas seguintes por excesso de NA: 104 a 120, 124 a 127, 129. • Excluídas 222 linhas com NA.
• Utilizada como target o número de crimes violentos. 19. computer-hardware
• Foram utilizados os atributos originais 3 a 9. 20. concrete-slump
• Utilizado como target apenas a coluna Slump(cm). 21. concrete-strength
• Sem alteração. 22. condition-plants
• Excluída coluna 17 original (GT Compressor decay state coecient.) • Excluída coluna com todos valores iguais.
23. educational-set
• Todos os arquivos de todas as sessions foram consolidados em apenas 1. • Os atributos start_time e end_time foram substituídos pela diferença entre os
2, em segundos.
• O atributo activity foi modicado de modo a se obter 9 atividades únicas. • O atributo exercise foi excluído.
• Os valores dos atributos foram somados por coluna, agrupados por session, student_Id e activity.
• Para cada dupla (session, student) foram criados os atributos originais para cada atividade.
• Para estudantes que realizaram dois exames, foi considerado apenas o primeiro resultado.
• Valores de atributos faltantes foram considerados como valor 0, por ser o tempo utilizado naquela atividade.
• As notas nais de 0 a 10 de cada aluno para cada session é o target. • Foram excluídas 132 linhas de alunos que não realizaram o exame nal. 24. energy-cooling
• Utilizado como target a coluna cooling.
• Excluída última linha (erro: singular t, com mars). 25. energy-heating
• Utilizado como target a coluna heating. 26. fertility
• O target será o número de horas sentado e o resultado do exame um atributo (output original).
27. forest-res
• Sem alteração. 28. gas-concentrations
• Os 10 arquivos foram consolidados em apenas 1.
• Foram substituídos os códigos das substâncias pelos nomes. • A concentração passa a ser a última coluna.
29. gas-ethylene
• Foram extraídas as linhas múltiplas de 100 do arquivo ethylene_methane e ethylene_CO.
• Foi excluída o tempo e a concentração methane/CO de ambos os arquivos, que foram unidos em 1, e considerada a concentração de ethylene como target. 30. gas-methane
• Foram extraídas as linhas múltiplas de 100 do arquivo ethylene_methane. • Foi excluída o tempo e a concentração ethylene e considerada a concentração
31. geographical-longitude
• Foi utilizado o arquivo default (sem escala cromática). • usado como target apenas longitude.
32. geographical-latitude
• Foi utilizado o com escala cromática. • Usado como target apenas latitude. 33. greenhouse-network
• Os 2.921 arquivos foram consolidados em 1.
• Os dados foram transpostos dentro de cada arquivo, de modo que cada coluna anterior se torna uma linha, com a última coluna (16) sendo o target (GHG concentrations of synthetic observations).
34. heart-cleveland
• Utilizado o arquivo processed.cleveland.data. • Excluídas 6 linhas com NA.
35. heart-va
• Utilizados os arquivos processed.hungarian.data, processed.switzerland.data e processed.va.data.
• Excluídas as colunas slope, ca e thal. • Excluídas 180 linhas com NA.
36. housing
• Alterados os separadores para ,. 37. istambul-exchange
• Utilizado como target os retornos ISE TL Based. 38. kegg-undirected
• Eliminado primeiro atributo original e considerado o último como target. • 947 linhas com NA deletadas.
39. kegg-directed
• Eliminado primeiro atributo original e considerado o último como target. 40. liver-disorders
41. online-popularity
• Excluídas as 2 primeiras colunas originais (não-preditivas). 42. online-umem
• Excluído coluna ID. • Excluído target utime. 43. online-utime
• Excluído coluna ID. • Excluído target umem. 44. parkinson-recordings
• Excluída primeira coluna (ID) e última coluna (Classe).
• Utilizado apenas o arquivo de treinamento fornecido, pois apenas este contém o score (target).
45. parkinsons-telemonitoring
• Eliminadas as colunas ID, Age, Sex e test_time. • Utilizado como target total_UPDRS.
46. physicochemical-structure
• Considerada RMSD como target. 47. poker-hand
• Utilizado apenas o arquivo de treinamento. 48. relative-axis
• Excluída coluna ID do paciente. 49. servo
• Sem alteração. 50. skill-dataset
• Excluída coluna game id. • Target utilizado: leagueIndex.
• Excluídas 57 linhas com missing values. 51. sml2010
• Excluídas colunas Date, Time, Enthalpic motor 1, 0 or 1 (on-o), Enthalpic motor 2, 0 or 1 (on-o) e Enthalpic motor turbo, 0 or 1 (on-o).
• Usado como target a temperatura exterior. 52. solar-are
• Foram unidos os dados dos 2 arquivos fornecidos em um arquivo único. • Foi usado como target apenas ares do tipo C (Comum).
53. student-performance
• Os arquivos das notas de português e matemática foram unidos em um só arquivo, com o acréscimo de 1 atributo para representar a disciplina.
• Foram excluídos os targets das notas dos 1 e 2 semestre, cando apenas a nota nal.
54. uji-latitude
• Excluídas as colunas BUILDINGID, SPACEID, RELATIVEPOSITION, USE- RID, PHONEID e TIMESTAMP.
• Utilizado como target Longitude (excluídos longitude e oor).
• Valores de sinais substituídos de dBm para mW. No caso de sinal não detectado (valor 100), substituído por 0.
55. uji-longitude
• Excluídas as colunas BUILDINGID, SPACEID, RELATIVEPOSITION, USE- RID, PHONEID e TIMESTAMP.
• Utilizado como target Longitude (excluídos latitude e oor).
• Valores de sinais substituídos de dBm para mW. No caso de sinal não detectado (valor 100), substituído por 0.
56. wine-red
• Substituídos os separadores de ; para ,. 57. wine-white
• Substituídos os separadores de ; para ,. 58. yacht-hydrodynamics
• Alterado separador de para ,. 59. year-msd