Nesta atividade, escolheremo um conjunto de dados aberto. Nosso desafio será desenvolver um projeto que passe por todas as etapas do pipeline de aprendizado de máquina, desde a análise exploratória até a avaliação do modelo, culminando na seleção e apresentação do melhor modelo para resolver o problema proposto pelo dataset. Isto poderá envolver tanto aprendizado supervisionado e não supervisionado (no nosso caso, usaremos o aprendizamo supervisionado)
O projeto será desenvolvido utilizando a linguagem Python no ambiente Google Colabs. Utilizaremos bibliotecas de aprendizado de máquina como scikit-learn, e bibliotecas auxiliares como matplotlib, numpy, e pandas para facilitar a análise de dados e a modelagem.
Seguiremos os seguintes passos, que você pode seguir também ficando ao seu critério:
- Escolha um conjunto de dados no UCI Machine Learning Repository (https://archive.ics.uci.edu/) ou no Kaggle (https://www.kaggle.com/datasets). Certifique-se de selecionar um conjunto de dados que contenha uma descrição clara do problema, das variáveis e do contexto.
- Escreva uma descrição detalhada do problema que o conjunto de dados propõe resolver. Explique a importância e a aplicabilidade do problema.
- Faça uma análise completa das variáveis disponíveis no dataset, incluindo:
- Número de variáveis;
- Explicação do significado de cada variável;
- Tipo de cada variável (numérica, categórica, etc.);
- Intervalo ou distribuição de valores de cada variável.
- Realize as etapas necessárias de pré-processamento de dados, como limpeza, tratamento de valores ausentes, normalização ou padronização.
- Aplique diversos modelos de aprendizado de máquina para resolver o problema. Utilize técnicas como validação cruzada para avaliar a eficácia de cada modelo. Compare os modelos com base em métricas apropriadas (acurácia, F1-score, ROC AUC, etc.) e escolha o melhor modelo com base nos resultados obtidos. Documente todas as etapas, códigos e análises. Inclua visualizações gráficas que ajudem a ilustrar os clusters e as análises feitas.