Skip to content

ayssag/7DaysOfCodePandas

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 

Repository files navigation

#7DaysOfCode Python Pandas

🔎 Um dos objetivos de uma biblioteca é garantir que os materiais informacionais estejam sendo **utilizados**. Os empréstimos realizados podem ser um indicador, mesmo que de forma básica (pois você não consegue garantir que haja uma leitura ou utilização real).

Por este motivo, entender a quantidade de empréstimos se torna importante.

Questões de diferentes perspectivas podem surgir como:

  • A quantidade de empréstimos está aumentando ou diminuindo ao decorrer dos últimos anos?
  • Em quais bibliotecas do sistema estão a maior quantidade de empréstimos?
  • Quais são os temas mais emprestados? E os menos?

Com estas e outras informações será possível entender o cenário e apresentá-lo à diretoria das bibliotecas, para que possam tomar melhores decisões na melhoria da infraestrutura, dos recursos e processos da unidade de informação.

Mas para que tudo isso seja realizado, você precisará começar com a coleta e organização dos dados para que possa trabalhar com eles nas próximas análises.

Objetivo

Explorar os dados de empréstimos dos acervos do sistema de bibliotecas da UFRN.

Perguntas

  • A quantidade de empréstimos está aumentando ou diminuindo ao decorrer dos últimos anos?
  • Em quais bibliotecas do sistema estão a maior quantidade de empréstimos?
  • Quais são os temas mais emprestados? E os menos?

Dia 1/7 > Importação de dados

Você trabalhará com dados apenas dos últimos 10 anos disponíveis.

Fonte

7_Days_of_Code_Alura-Python-Pandas/Dia_1-Importando_dados/Datasets/dados_emprestimos at main · FranciscoFoz/7_Days_of_Code_Alura-Python-Pandas

Etapas

  • Importar dados dos empréstimos
  • Unificar os dados de empréstimos em único Dataframe
  • Importar exemplares do acervo
  • Mesclar empréstimos com exemplares (relação ⇒ código de barras do exemplar)

Dicas

💡 Importar os dados diretamente do Github para seu notebook apenas passando o endereço do link “Raw” como origem.

IO tools (text, CSV, HDF5, …) — pandas 2.2.2 documentation

💡 Formato Apache Parquet

O que são Arquivos Parquet e quais as Vantagens? | Alura

Como jogar dados fora com Pandas?

Dia 2/7 > Limpeza de dados

Você irá iniciar a limpeza e atribuir mais contexto aos seus dados para depois aprofundar-se nas análises.

Etapas

  • Remover dados nulos ou duplicados
  • Criar uma nova coluna com os valores da localização, para refletir a respectiva classe geral na CDU
  • Excluir a coluna "registro_sistema", pois ela não está fazendo sentido para essa análise
  • Transformar a coluna da matricula (“matricula_ou_siape”) em string, pois ela não está com um formato muito legível

Dicas

💡 CDU - Classificação Decimal Universal
  • "Os itens do acervo em uma biblioteca são organizados por um sistema de classificação de acordo com o respectivo tema. Existem diversos sistemas, mas este conjunto está de acordo com a CDU - Classificação Decimal Universal. Esta classificação é decimal, pois varia de acordo com a classe de cada assunto ⬇️

    • 000 a 099: Generalidades. Ciência e conhecimento.
    • 100 a 199: Filosofia e psicologia.
    • 200 a 299: Religião.
    • 300 a 399: Ciências sociais.
    • 400 a 499: Classe vaga. Provisoriamente não ocupada.
    • 500 a 599: Matemática e ciências naturais.
    • 600 a 699: Ciências aplicadas.
    • 700 a 799: Belas artes.
    • 800 a 899: Linguagem. Língua. Linguística.
    • 900 a 999: Geografia. Biografia. História."

    Portanto, se um material tiver um código de localização 720, ele está dentro da classe geral de “Belas Artes”; ou se tiver um código 028, estará dentro da classe geral de “Generalidades. Ciência e conhecimento”.

Dia 3/7 > Análise exploratória de dados e DateTime

Por isso, o empréstimo dos materiais em uma biblioteca é uma das formas de se indicar o uso da informação. Entender a quantidade e quando se emprestaram os livros é uma das primeiras formas de fazer uma análise desse tipo. A diretoria da biblioteca gostaria de entender se a quantidade de empréstimos está diminuindo, aumentando ou permanecendo igual ao decorrer dos últimos anos. A diretoria também gostaria de gerenciar melhor os recursos humanos da biblioteca de acordo com a demanda de trabalho existente, como por exemplo:

  • gerenciar a programação de férias dos colaboradores de acordo com os meses de menor demanda;
  • programar atividades que não sejam de atendimento ao usuário para períodos específicos de menor demanda. Além do gerenciamento anual das atividades, a diretoria também necessita que seja planejada uma programação diária das atividades.

Etapas

  • Verificar qual é a quantidade total de exemplares emprestados por cada ano e plotar um gráfico de linhas.
  • Fazer uma análise em relação à visualização gerada.
  • Gerar uma tabela com a quantidade total de exemplares emprestados por mês e descubrir quais meses são os que possuem a maior quantidade de empréstimos realizados.
  • Plotar um gráfico de linhas.
  • Trazer suas análises em relação a quais meses poderiam ser as melhores opções para férias dos colaboradores.
  • Verificar quais foram os horários com maior quantidade de empréstimos ao longo de um dia inteiro.
  • Plotar um gráfico de barras e analisar quais seriam os melhores horários para alocar as demais atividades que não sejam de atendimento ao usuário.

Dicas

💡 1. Atente-se para a quantidade de exemplares emprestados, e não de empréstimos realizados.
2. Verifique a quantidade de empréstimos pelos números de ID.
3. Investigue pela relação deles com o ID dos exemplares.
4. O groupby poderá te ajudar nesse desafio.
5. Transforme as datas em tipo Datetime.

Dia 4/7 > Análise exploratória de dados e Variáveis

O objetivo será entender a quantidade de empréstimos a partir das variáveis categóricas do seu conjunto de dados. Vamos explorar algumas das variáveis categóricas das quais precisaremos extrair mais informações. Elas são:

  • Tipo de vínculo
  • Coleção
  • Biblioteca
  • Classificação geral da CDU

Para explorar os dados, alguns questionamentos serão pertinentes para a diretoria das bibliotecas, como:

  • “Como se distribuem os empréstimos de exemplares pelos tipos de vínculo dos usuários?” Desta forma, a diretoria poderá entender qual é o público que está utilizando a biblioteca e assim tomar decisões em continuar com a estratégia de negócio atual ou modificá-la.

  • Quais coleções são mais emprestadas? Da mesma forma, as coleções. Ranquear as coleções mais emprestadas pelo público, será bastante importante para a estratégia atual.

  • Quais são as bibliotecas com mais ou menos quantidade de empréstimos? Assim, a diretoria conseguirá entender onde ela deverá melhorar e focar suas iniciativas.

Etapas

  • Gerar uma tabela de frequência e com o percentual para cada variável.
  • Trazer algumas das suas percepções para as análises com o que você poderá contribuir para a diretoria da biblioteca.
  • Apontar algumas outras métricas que poderiam entrar aqui para enriquecer essa análise. "De quais temas da CDU são os exemplares emprestados?" Entender quais os temas mais procurados pelos usuários é fundamental para o desenvolvimento de novos planos de marketing do acervo. Para que possam não apenas fortalecer o que está sendo utilizado, mas também promover o que não está.

Dicas

1. Como é um trabalho repetitivo, crie uma função que gere a tabela com os valores.
2. Para arredondar os números do percentual, você pode utilizar a função built-in do Python Round().

Dia 5/7 > Análise exploratória de dados e Boxplot

O Boxplot é uma das visualizações mais poderosas que existe, pois ele permite que você visualize medidas estatísticas como a mediana, os quartis, os valores mínimos e máximos e os valores atípicos outliers. image

É importante realizar avaliações constantes do uso da biblioteca e entender em quais cenários (tipos de usuários, estratégias de marketing, atualização de acervo, cenário sócio-político interno e externo) é melhor manter a estratégia atual ou mudá-la. Você vai fazer dois recortes em seus dados para entender como eles se distribuíram ao decorrer desses anos e, desta forma, possa trazer inferências para levar à diretoria da biblioteca, a fim de que eles possam tomar decisões para o ano atual. Você vai avaliar dentre os alunos de graduação e pós graduação a distribuição de empréstimos mensais por ano realizados entre 2010 e 2020 da coleção que tiver a maior frequência de empréstimos.

Etapas

  • Plotar um gráfico para cada tipo de usuário.Tenha um boxplots para cada ano.
  • Analisar o que ocorreu.
"O que está ocorrendo ao decorrer do tempo?"
"Houve algum ano ou anos em específico que te chamaram atenção para alguma diferença?"
"Quais as maiores diferenças entre os empréstimos para os alunos de graduação e pós graduação?"

Dicas

💡 Desenvolva a tarefa uma etapa por vez:
1. Verifique qual é a coleção com maior frequência para cada tipo de usuário.
2. Filtre os dados com condições solicitadas
3. Selecione apenas os empréstimos
4. Faça a contagem de empréstimos mensais por cada ano
5. Crie uma função para gerar a visualização do gráfico de box plot por cada ano.
6. Crie o gráfico de boxplot

💡 Bibliotecas para plotar os gráficos
- Matplotlib
- Pandas
- Seaborn
- Plotly

Dia 6/7 > JSON, Excel e Pivot_table

As instituições de ensino superior (IES) têm a necessidade de passar por avaliações do Ministério da Educação (MEC) para que possam ofertar e continuar ofertando cursos de graduação e pós-graduação. A biblioteca universitária faz parte de um dos indicadores da avaliação dos cursos, em principalmente três aspectos: acervo, infraestrutura e serviços. Os cursos serão:

  • Biblioteconomia
  • Ciências sociais
  • Comunicação social
  • Direito
  • Filosofia
  • Pedagogia A universidade forneceu os dados dos usuários, mas uma parte deles está em planilhas de Excel, a outra parte veio através de uma API do sistema em formato JSON.

Etapas

  • Extrair os dados destes arquivos, agrupe-os em apenas um só, e verifique depois a quantidade de empréstimos.
  • Calcular a quantidade de empréstimos realizados entre 2015 e 2020 por cada curso de graduação que passará pela avaliação.
  • Gerar uma tabela com as seguintes características:
  • Índice: Cursos
  • Colunas: Ano
  • Valores: Quantidade de empréstimos
  • Total: Acrescente uma linha e uma coluna de total a tabela

About

#7DaysOfCode Alura - Explorando dados com pandas

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published