Este projeto tem como objetivo desenvolver um sistema de indexação automática de acervos bibliográficos utilizando modelos de linguagem avançados (LLMs). A proposta busca otimizar o processo de catalogação, tornando-o mais eficiente e preciso, integrando técnicas de processamento de linguagem natural (PLN) e aprendizado de máquina. O sistema será implementado utilizando Python, VBA e APIs de modelos como Llama 2 e Mistral, permitindo a automação da classificação de documentos conforme padrões bibliográficos.
- Orientador: Prof. Dr. David de Oliveira Lemes
- Aluno: Andson André da Silva Ribeiro
- Curso: Ciências de Dados e Inteligência Artificial
- Faculdade: Pontifícia Universidade Católica de São Paulo (PUC-SP)
- Implementar um pipeline de processamento de linguagem natural para análise dos metadados dos acervos.
- Automatizar a categorização de documentos conforme padrões bibliográficos.
- Avaliar a eficiência e precisão do modelo em comparação com métodos tradicionais.
- Criar uma interface para refinamento manual da indexação automática.
- Coleta e Preparação de Dados - Uso de planilhas Excel contendo metadados dos documentos.
- Desenvolvimento do Modelo - Implementação e treinamento de modelos como Llama 2 e Mistral.
- Validação e Interface - Testes comparativos e criação de um sistema interativo para ajustes manuais.
- Linguagens: Python, VBA
- Bibliotecas: Pandas, Scikit-learn, Transformers, LangChain
- Modelos de IA: Llama 2, Mistral
- Banco de Dados: PostgreSQL
📂 BibloMind_Puc_llms
┣ 📂 data # Base de dados e metadados dos documentos
┣ 📂 models # Modelos treinados para indexação automática
┣ 📂 scripts # Scripts Python para processamento dos dados
┣ 📜 README.md # Documentação do projeto
┣ 📜 requirements.txt # Dependências do projeto
┗ 📜 LICENSE # Licença do projeto
- Faça um fork do repositório.
- Clone o repositório para sua máquina local.
- Crie uma branch para suas modificações.
- Faça as alterações necessárias e commit.
- Envie um pull request para revisão.
- Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
- Jurafsky, D., & Martin, J. H. (2021). Speech and Language Processing (3rd ed.). Pearson.
- Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
- Tenório, T., et al. (2019). Indexação Automática de Documentos usando Redes Neurais Profundas. SBBD.
Este projeto está licenciado sob a MIT License - veja o arquivo LICENSE para mais detalhes.