Skip to content

O repositório é para aprender, ironicamente, LLMops usando um LLM.

Notifications You must be signed in to change notification settings

SchultzVV/llmops

Repository files navigation

📌 Módulo 1: Introdução ao LLMOps e Aplicações Práticas

🔹 1.1 O que é um LLM e onde ele é aplicado? Definição de Large Language Models (LLMs). Diferença entre LLMs tradicionais (GPT-3, LLaMA, etc.) e modelos menores (T5, DistilBERT, etc.). Exemplos práticos: Chatbots e assistentes virtuais. Geração de texto e código. Tradução automática. Análise de sentimentos e resumo de documentos. Pesquisa semântica e RAG (Retrieval-Augmented Generation).

🔹 1.2 O que é LLMOps e por que é necessário? LLMOps = MLOps adaptado para LLMs. Desafios dos LLMs: Alto custo computacional. Drift de dados e atualização de conhecimento. Governança e compliance (GDPR, LGPD). Cenário ideal de LLMOps: Treinamento eficiente e escalável. Deploy otimizado para inferência rápida e barata. Monitoramento contínuo e ajuste fino conforme necessário.

📌 Módulo 2: Organização e Preparação do Dataset

🔹 2.1 Como estruturar um dataset para treinar um LLM? Tipos de dados usados em LLMs: Textos livres (livros, artigos, documentos). Dados estruturados (conversas, logs, código). Dados especializados (jurídico, médico, técnico). Técnicas de coleta de dados: Web Scraping, APIs públicas, bases curadas. Uso de RAG para conectar modelos a bases externas. Filtragem e limpeza de dados.

🔹 2.2 Preprocessing e Tokenização Como converter texto para tokens. Diferença entre BPE, WordPiece e SentencePiece. Normalização e remoção de ruído (stopwords, stemming, etc.).

📌 Módulo 3: Treinamento de LLMs

🔹 3.1 Configuração do ambiente Uso de GPUs e TPUs para treinar modelos grandes. Frameworks principais: Hugging Face Transformers. DeepSpeed e FSDP para otimização. PyTorch e TensorFlow para fine-tuning.

🔹 3.2 Estratégias de Treinamento Treinamento do zero vs. Fine-tuning. Ajuste de hiperparâmetros (learning rate, batch size, etc.). Uso de LoRA (Low-Rank Adaptation) para fine-tuning eficiente. Técnicas de redução de custo computacional: Quantização (INT8, FP16). Checkpointing de gradientes.

📌 Módulo 4: Inferência e Otimização para Produção

🔹 4.1 Estratégias para Inferência Rápida e Eficiente Tipos de inferência: CPU vs. GPU vs. TPU. Inferência distribuída e paralelismo. Técnicas de otimização: Uso de ONNX Runtime. Modelos comprimidos (Pruning, DistilBERT, Quantização). Caching de respostas para evitar recomputação.

🔹 4.2 Ferramentas para Deploy Deploy com Hugging Face Inference API, Triton, TensorRT. Hospedagem em AWS, GCP, Azure. Monitoramento de inferência (latência, custo, eficiência).

📌 Módulo 5: Avaliação e Monitoramento de LLMs

🔹 5.1 Como avaliar um LLM? Métricas comuns: Perplexity (para modelos generativos). BLEU, ROUGE, METEOR (para textos gerados). Embedding Similarity (para tarefas de recuperação). Avaliação de toxicidade, viés e segurança.

🔹 5.2 Monitoramento Contínuo Detectando drift de dados e mudança de distribuição. Retraining vs. Fine-tuning contínuo.

📌 Módulo 6: Ajustando um LLM em um Cenário Real

🎯 Objetivo: Ajustar um LLM para uma aplicação real, simulando um caso de uso.

🔹 6.1 Definição do Caso de Uso

🔸   Problema: Ajustar um modelo GPT-3 para responder perguntas sobre regulamentos internos de uma empresa.
🔸 Desafio: O modelo base não conhece esses regulamentos.

🔹 6.2 Solução: Fine-Tuning vs. RAG

✅ Fine-Tuning: Treinar o modelo com exemplos específicos.
✅ RAG (Retrieval-Augmented Generation): Integrar o modelo com uma base externa.

🔹 6.3 Implementação Passo a Passo

(1) Criar Dataset
Coletar documentos e transformá-los em formato treinável.

(2) Escolher abordagem
Fine-tuning no Hugging Face ou usar LangChain com RAG.


(3) Treinamento e Avaliação
Ajustar hiperparâmetros e testar o modelo.

(4) Deploy e Monitoramento
Hospedar no Hugging Face Spaces ou AWS SageMaker.

📌 Módulo 7: Desafios Avançados e Tendências

Multi-Modalidade (Texto + Imagem + Áudio) com LLMs. Modelos como Gemini (Google), Claude (Anthropic), Mistral. Como reduzir custo e consumo energético dos modelos.

🚀 Conclusão e Próximos Passos Como aprofundar o conhecimento em LLMOps. Melhores práticas para colocar LLMs em produção de forma escalável. Recursos e materiais recomendados.

🛠 Exercícios Práticos no Curso

✅ Criar um pipeline de fine-tuning com Hugging Face.

✅ Implementar RAG para conectar um LLM a uma base de dados.

✅ Otimizar inferência de um modelo com quantização.

About

O repositório é para aprender, ironicamente, LLMops usando um LLM.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published