Skip to content

Latest commit

 

History

History
18 lines (14 loc) · 2.12 KB

File metadata and controls

18 lines (14 loc) · 2.12 KB

Comparação de Modelos de ML

Nesta atividade, escolheremo um conjunto de dados aberto. Nosso desafio será desenvolver um projeto que passe por todas as etapas do pipeline de aprendizado de máquina, desde a análise exploratória até a avaliação do modelo, culminando na seleção e apresentação do melhor modelo para resolver o problema proposto pelo dataset. Isto poderá envolver tanto aprendizado supervisionado e não supervisionado (no nosso caso, usaremos o aprendizamo supervisionado)

O projeto será desenvolvido utilizando a linguagem Python no ambiente Google Colabs. Utilizaremos bibliotecas de aprendizado de máquina como scikit-learn, e bibliotecas auxiliares como matplotlib, numpy, e pandas para facilitar a análise de dados e a modelagem.

Seguiremos os seguintes passos, que você pode seguir também ficando ao seu critério:

  • Escolha um conjunto de dados no UCI Machine Learning Repository (https://archive.ics.uci.edu/) ou no Kaggle (https://www.kaggle.com/datasets). Certifique-se de selecionar um conjunto de dados que contenha uma descrição clara do problema, das variáveis e do contexto.
  • Escreva uma descrição detalhada do problema que o conjunto de dados propõe resolver. Explique a importância e a aplicabilidade do problema.
  • Faça uma análise completa das variáveis disponíveis no dataset, incluindo:
    • Número de variáveis;
    • Explicação do significado de cada variável;
    • Tipo de cada variável (numérica, categórica, etc.);
    • Intervalo ou distribuição de valores de cada variável.
  • Realize as etapas necessárias de pré-processamento de dados, como limpeza, tratamento de valores ausentes, normalização ou padronização.
  • Aplique diversos modelos de aprendizado de máquina para resolver o problema. Utilize técnicas como validação cruzada para avaliar a eficácia de cada modelo. Compare os modelos com base em métricas apropriadas (acurácia, F1-score, ROC AUC, etc.) e escolha o melhor modelo com base nos resultados obtidos. Documente todas as etapas, códigos e análises. Inclua visualizações gráficas que ajudem a ilustrar os clusters e as análises feitas.