Projeto de Ciência de Dados com Orange Data Mining
Este projeto apresenta o desenvolvimento de um processo de ciência de dados utilizando a ferramenta Orange Data Mining. O objetivo é explorar e analisar dados, aplicar algoritmos de aprendizado de máquina e avaliar as métricas dos experimentos realizados.
- Exploração dos Dados Durante a exploração dos dados, realizei várias análises para entender melhor o conjunto de dados disponível:
Verificação de Outliers Cálculo de Médias: Com a ferramenta Feature Statistics Matriz de Confusão
Imagens: Gráficos de outliers Tabela de médias Matriz de Confusão com destaque para os erros de classificação
- Análise de Boxplot Analisei a distribuição dos combustíveis por região utilizando gráficos de Boxplot:
Gás Natural: Observei que há pouco uso em diversas regiões. Gasolina e Etanol: A gasolina está presente em todas as regiões, enquanto o etanol é mais utilizado no sudeste do que no norte.
- Modelagem com Algoritmos de Aprendizado Escolhemos três algoritmos para a modelagem:
KNN (K-Nearest Neighbors): Escolhido por sua simplicidade e capacidade de interpretar os dados após o pré-processamento. Tree: Utilizado para classificar o tipo de combustível mais consumido e as regiões onde são utilizados. Justificativa: KNN: Efetivo na classificação com base em proximidade. Tree: Oferece uma boa visualização e interpretação das regras de decisão. Imagens: Visualização dos modelos KNN e Tree
- Preparação dos Dados Os dados foram preparados de acordo com as necessidades de cada algoritmo:
Acurácia: Registrei uma acurácia entre 20% e 25%. Não houve grande evolução na acurácia após ajustar o nível de proximidade no KNN.
- Execução dos Experimentos e Coleta das Métricas Após a execução dos experimentos:
Resultados: Observei que a mudança nos parâmetros dos algoritmos não resultou em melhorias significativas na acurácia. Lições Aprendidas: A necessidade de explorar mais profundamente os parâmetros e talvez considerar outros métodos de pré-processamento de dados.