Skip to content

andsonandreribeiro09/BibloMind_Puc_llms

Repository files navigation

BibloMind_Puc_llms

Descrição do Projeto

Este projeto tem como objetivo desenvolver um sistema de indexação automática de acervos bibliográficos utilizando modelos de linguagem avançados (LLMs). A proposta busca otimizar o processo de catalogação, tornando-o mais eficiente e preciso, integrando técnicas de processamento de linguagem natural (PLN) e aprendizado de máquina. O sistema será implementado utilizando Python, VBA e APIs de modelos como Llama 2 e Mistral, permitindo a automação da classificação de documentos conforme padrões bibliográficos.

Orientação e Autoria

  • Orientador: Prof. Dr. David de Oliveira Lemes
  • Aluno: Andson André da Silva Ribeiro
  • Curso: Ciências de Dados e Inteligência Artificial
  • Faculdade: Pontifícia Universidade Católica de São Paulo (PUC-SP)

Objetivos

  • Implementar um pipeline de processamento de linguagem natural para análise dos metadados dos acervos.
  • Automatizar a categorização de documentos conforme padrões bibliográficos.
  • Avaliar a eficiência e precisão do modelo em comparação com métodos tradicionais.
  • Criar uma interface para refinamento manual da indexação automática.

Metodologia

  1. Coleta e Preparação de Dados - Uso de planilhas Excel contendo metadados dos documentos.
  2. Desenvolvimento do Modelo - Implementação e treinamento de modelos como Llama 2 e Mistral.
  3. Validação e Interface - Testes comparativos e criação de um sistema interativo para ajustes manuais.

Tecnologias Utilizadas

  • Linguagens: Python, VBA
  • Bibliotecas: Pandas, Scikit-learn, Transformers, LangChain
  • Modelos de IA: Llama 2, Mistral
  • Banco de Dados: PostgreSQL

Estrutura do Repositório

📂 BibloMind_Puc_llms
 ┣ 📂 data                  # Base de dados e metadados dos documentos
 ┣ 📂 models                # Modelos treinados para indexação automática
 ┣ 📂 scripts               # Scripts Python para processamento dos dados
 ┣ 📜 README.md             # Documentação do projeto
 ┣ 📜 requirements.txt      # Dependências do projeto
 ┗ 📜 LICENSE               # Licença do projeto

Como Contribuir

  1. Faça um fork do repositório.
  2. Clone o repositório para sua máquina local.
  3. Crie uma branch para suas modificações.
  4. Faça as alterações necessárias e commit.
  5. Envie um pull request para revisão.

Referências

  1. Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
  2. Jurafsky, D., & Martin, J. H. (2021). Speech and Language Processing (3rd ed.). Pearson.
  3. Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
  4. Tenório, T., et al. (2019). Indexação Automática de Documentos usando Redes Neurais Profundas. SBBD.

Licença

Este projeto está licenciado sob a MIT License - veja o arquivo LICENSE para mais detalhes.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published