O objetivo deste projeto é realizar a análise e limpeza de dados de telecomunicações. Me utilizo de tecnica de limpeza de dados para tratar os dados faltantes, outliers e dados duplicados tudo isso fazendo uso de funções que foram criadas para tal.
- Converter dados para o tipo correto
- Tratar dados faltantes
- Tratar outliers
Esta pasta contém 3 arquvios com funções que podem ser usadas para limpar os dados.
Os arquivos e funções são:
-
conversao_dados.py
convert_to_string
convert_to_int
convert_to_datetime
convert_to_factor
-
trat_outliers.py
remove_outliers
replace_outliers_with_fences
getOveview
-
valores_ausentes.py
func_calc_percentual_valores_ausentes
: Calcula o percentual de valores ausentes em um DataFramefunc_calc_percentual_valores_ausentes_linha
: calcula o percentual de linhas com valores ausentesfunc_calc_percentual_valores_ausentes_coluna
: calcula valores ausentes por colunafix_missing_ffill
: Imputação de valores ausentes usando forward fill (preenchimento progressivo) - preenche com o próximo valor válidofix_missing_bfill
: Imputação de valores ausentes usando backward fill (preenchimento regressivo) - preenche com o último valor válidofix_missing_median
: Imputação usando a medianafix_missing_value
: Preenche valor NAdrop_duplicates
: Remove linhas duplicadasdrop_rows_with_missing_values
: Drop de linhas com valores ausentesdrop_columns
: Drop de colunas