O código assume que você usa Anaconda (Python 3) com as bibliotecas da instalação padrão.
O objetivo desse repositório é abrigar o código e dados utilizados na ministração da disciplina de Pré-processamento de Dados na Especialização de Ciência de Dados da UNIFACISA.
A disciplina cobriu os seguintes tópicos:
- Preparando do Ambiente
- Acessando os Dados
- Conhecendo os Dados
- Tipos de Dado
- Análise Exploratória
- Preparando os Dados
- Validação do Dado
- Lidando com Problemas no Dado
- Dados Faltantes (Missing Data)
- Dados Destoantes (Outliers)
- Transformando os Dados
- Uniformização do Dado
- Normalização e Estandardização
- Redução de Dimensionalidade
- Agrupamento
- Uniformização do Dado
A pasta notebooks
contém os notebooks Jupyter com o código usado nas seções práticas das aulas para cada assunto.
A pasta dados
contém os dados usados nas seções práticas das aulas para cada assunto.
Os datasets famosos dos Índios Pima e do Titanic foram obtidos em UCI Machine Learning Repository e Kaggle respectivamente.
Informações de Descrição e Licença do dado podem ser encontradas nos links acima.
Os dados de autores e documentos da Câmara e Senado Federal foram extraídos das APIs de Dados Abertos de cada casa legislativa utilizando o pacote leggoR.
Boa parte do código foi feita com base em exemplos encontrados em sites como o TowardsDataScience.
Sinta-se à vontade para usar o código assim como contribuir.