• Aucun résultat trouvé

1. 3d-network

• Excluído atributo 1 original: OSM_ID. 2. air-c6h6

• Excluídas 9 colunas de leituras do sensor e das medidas reais, exceto C6H6(GT). • Excluídas 366 linhas com NA.

• Excluída coluna Date e adicionada coluna DayOfWeek do tipo Inteiro. • Coluna Time alterada do tipo Hora para o tipo Inteiro.

3. air-co

• Excluídas 9 colunas de leituras do sensor e das medidas reais, exceto CO(GT). • Excluídas 2.013 linhas com NA.

• Excluída coluna Date e adicionada coluna DayOfWeek do tipo Inteiro. • Coluna Time alterada do tipo Hora para o tipo Inteiro.

4. airfoil-noise

• Trocados separadores de tab para vírgula. 5. auto-mpg

• Atributo Nome foi excluído.

• O atributo ModelYear foi substituído por um atributo Age, subtraindo-se o ano de 82.

• Excluídas 6 linhas com NA. 6. automobile

• Excluída a original coluna 2 (normalized-losses) por possuir 41/206 NAs. • Excluídas 12 linhas com missing values.

7. bike-day

• Excluídos os atributos instant e dteday.

• Excluídos os targets casual e registered, sendo usado apenas o target cnt, que é a soma dos 2 anteriores.

8. bike-hour

• Excluídos os atributos instant e dteday.

• Excluídos os targets casual e registered, sendo usado apenas o target cnt, que é a soma dos 2 anteriores.

9. blog-feedback

• Utilizado apenas o dataset de treinamento fornecido e eliminados os de teste, ignorando assim o problema de sobreposição de tempo.

10. buzz-hardware • Sem alteração. 11. buzz-twitter

• Sem alteração. 12. coil-1

• Foram unicados os dados dos arquivos analysis.data e results.data. • Foram excluídas 34 linhas com NA.

• Foram excluídas 24 linhas com dados corrompidos.

• Foram excluídas 6 colunas de concentração de algas, exceto a primeira (1 de 7).

13. coil-2

• Foram unicados os dados dos arquivos analysis.data e results.data. • Foram excluídas 34 linhas com NA.

• Foram excluídas 24 linhas com dados corrompidos.

• Foram excluídas 6 colunas de concentração de algas, exceto a primeira (segunda de 7).

14. combined-plant

• Utilizada a primeira aba da planilha original (1 shue de 5). 15. communities-1

• Excluídas as colunas originais 98 a 118, 122 a 125 e 127, por excesso de NAs. • Excluída 1 linha por possuir NA.

16. communities-2

• Eliminadas as colunas de 1 a 5 por serem não preditivas. • Excluídas 1.675 linhas com NA, restando 319.

17. communities-nonviolent

• Excluídas as colunas 1 a 5 por serem não preditivas.

• Excluídas as colunas seguintes por excesso de NA: 104 a 120, 124 a 127, 129. • Excluídas 98 linhas com NA.

• Utilizado como target taxa de crimes não violentos. 18. communities-violent

• Excluídas as colunas 1 a 5 por serem não preditivas.

• Excluídas as colunas seguintes por excesso de NA: 104 a 120, 124 a 127, 129. • Excluídas 222 linhas com NA.

• Utilizada como target o número de crimes violentos. 19. computer-hardware

• Foram utilizados os atributos originais 3 a 9. 20. concrete-slump

• Utilizado como target apenas a coluna Slump(cm). 21. concrete-strength

• Sem alteração. 22. condition-plants

• Excluída coluna 17 original (GT Compressor decay state coecient.) • Excluída coluna com todos valores iguais.

23. educational-set

• Todos os arquivos de todas as sessions foram consolidados em apenas 1. • Os atributos start_time e end_time foram substituídos pela diferença entre os

2, em segundos.

• O atributo activity foi modicado de modo a se obter 9 atividades únicas. • O atributo exercise foi excluído.

• Os valores dos atributos foram somados por coluna, agrupados por session, student_Id e activity.

• Para cada dupla (session, student) foram criados os atributos originais para cada atividade.

• Para estudantes que realizaram dois exames, foi considerado apenas o primeiro resultado.

• Valores de atributos faltantes foram considerados como valor 0, por ser o tempo utilizado naquela atividade.

• As notas nais de 0 a 10 de cada aluno para cada session é o target. • Foram excluídas 132 linhas de alunos que não realizaram o exame nal. 24. energy-cooling

• Utilizado como target a coluna cooling.

• Excluída última linha (erro: singular t, com mars). 25. energy-heating

• Utilizado como target a coluna heating. 26. fertility

• O target será o número de horas sentado e o resultado do exame um atributo (output original).

27. forest-res

• Sem alteração. 28. gas-concentrations

• Os 10 arquivos foram consolidados em apenas 1.

• Foram substituídos os códigos das substâncias pelos nomes. • A concentração passa a ser a última coluna.

29. gas-ethylene

• Foram extraídas as linhas múltiplas de 100 do arquivo ethylene_methane e ethylene_CO.

• Foi excluída o tempo e a concentração methane/CO de ambos os arquivos, que foram unidos em 1, e considerada a concentração de ethylene como target. 30. gas-methane

• Foram extraídas as linhas múltiplas de 100 do arquivo ethylene_methane. • Foi excluída o tempo e a concentração ethylene e considerada a concentração

31. geographical-longitude

• Foi utilizado o arquivo default (sem escala cromática). • usado como target apenas longitude.

32. geographical-latitude

• Foi utilizado o com escala cromática. • Usado como target apenas latitude. 33. greenhouse-network

• Os 2.921 arquivos foram consolidados em 1.

• Os dados foram transpostos dentro de cada arquivo, de modo que cada coluna anterior se torna uma linha, com a última coluna (16) sendo o target (GHG concentrations of synthetic observations).

34. heart-cleveland

• Utilizado o arquivo processed.cleveland.data. • Excluídas 6 linhas com NA.

35. heart-va

• Utilizados os arquivos processed.hungarian.data, processed.switzerland.data e processed.va.data.

• Excluídas as colunas slope, ca e thal. • Excluídas 180 linhas com NA.

36. housing

• Alterados os separadores para ,. 37. istambul-exchange

• Utilizado como target os retornos ISE TL Based. 38. kegg-undirected

• Eliminado primeiro atributo original e considerado o último como target. • 947 linhas com NA deletadas.

39. kegg-directed

• Eliminado primeiro atributo original e considerado o último como target. 40. liver-disorders

41. online-popularity

• Excluídas as 2 primeiras colunas originais (não-preditivas). 42. online-umem

• Excluído coluna ID. • Excluído target utime. 43. online-utime

• Excluído coluna ID. • Excluído target umem. 44. parkinson-recordings

• Excluída primeira coluna (ID) e última coluna (Classe).

• Utilizado apenas o arquivo de treinamento fornecido, pois apenas este contém o score (target).

45. parkinsons-telemonitoring

• Eliminadas as colunas ID, Age, Sex e test_time. • Utilizado como target total_UPDRS.

46. physicochemical-structure

• Considerada RMSD como target. 47. poker-hand

• Utilizado apenas o arquivo de treinamento. 48. relative-axis

• Excluída coluna ID do paciente. 49. servo

• Sem alteração. 50. skill-dataset

• Excluída coluna game id. • Target utilizado: leagueIndex.

• Excluídas 57 linhas com missing values. 51. sml2010

• Excluídas colunas Date, Time, Enthalpic motor 1, 0 or 1 (on-o), Enthalpic motor 2, 0 or 1 (on-o) e Enthalpic motor turbo, 0 or 1 (on-o).

• Usado como target a temperatura exterior. 52. solar-are

• Foram unidos os dados dos 2 arquivos fornecidos em um arquivo único. • Foi usado como target apenas ares do tipo C (Comum).

53. student-performance

• Os arquivos das notas de português e matemática foram unidos em um só arquivo, com o acréscimo de 1 atributo para representar a disciplina.

• Foram excluídos os targets das notas dos 1 e 2 semestre, cando apenas a nota nal.

54. uji-latitude

• Excluídas as colunas BUILDINGID, SPACEID, RELATIVEPOSITION, USE- RID, PHONEID e TIMESTAMP.

• Utilizado como target Longitude (excluídos longitude e oor).

• Valores de sinais substituídos de dBm para mW. No caso de sinal não detectado (valor 100), substituído por 0.

55. uji-longitude

• Excluídas as colunas BUILDINGID, SPACEID, RELATIVEPOSITION, USE- RID, PHONEID e TIMESTAMP.

• Utilizado como target Longitude (excluídos latitude e oor).

• Valores de sinais substituídos de dBm para mW. No caso de sinal não detectado (valor 100), substituído por 0.

56. wine-red

• Substituídos os separadores de ; para ,. 57. wine-white

• Substituídos os separadores de ; para ,. 58. yacht-hydrodynamics

• Alterado separador de   para ,. 59. year-msd

Documents relatifs