O script pega as Notas Taquigráficas e a estrutura em dataframes .Rds e tabelas .csv. No caso, o script pega dados da CPI da Pandemia, mas com pequenos ajustes, pode funcionar também para outras notas taquigráficas.
Aqui você encontra notas taquigráficas da CPI da Pandemia estruturadas em dataframe Rds (da linguagem R) e em tabela csv, feita com um script em R (será disponibilizado em breve). Deste modo é possível separar somente as falas de pessoas específicas, de blocos parlamentares específicos ou de partidos, usando apenas filtros simples (como do dplyr).
- Aqui você encontra um exemplo de uma das notas taquigráficas no site do Senado.
- Todas as tabelas estão em formato .Rds (na pasta rds) e em formato .csv (na pasta csv)
- Há a tabela com a listagem com todas as Notas Taquigráficas na versão csv (csv/NotasTaq-CPI_Pandemia-listagem.csv) ou na versão .Rds (rds/NotasTaq-CPI_Pandemia-listagem.Rds). Estes contém a seguinte estrutura:
- Coluna
data
(data da referida reunião no formato ano-mês-dia),reuniao_dia
(cada reunião possui um número diferente),Depoente.tema
(nome do depoente em oitiva, ou se reunião deliberativa) elink_notaTaquigrafica
com o link para a Nota taquigráfica.
Já os arquivos de Nota Taquigráfica estão estruturados da seguinte forma:
reuniao
: número da reuniãodata
: data da reunião da CPI no formato ano-mês-dianome
: Nome de quem fala no momentofuncao_blocoPar
: Qual a função (se presidente) ou bloco parlamentar, partido e Estado da federação. Esta foi repetida de modo desmembrado nas seguintes colunas:BlocoParl
: Apenas o bloco parlamentarpartido
: Apenas o partidoestado
: Estado da Federação do parlamentar
complemento
: alguns complementos, como "pela ordem", "fora do microfone", "como relator", "Para interpelar Por videoconferência", etc.fala
: a fala da pessoa.
Criei um dataframe com as notas de todas as reuniões, o NT_todas_df.rds. Há também o NT_todas_normalizado.rds que é basciamente o mesmo arquivo anterior, porém: 1) as colunas tem datatypes mais apropriados e não são apenas do tipo "char" 2) a coluna "nome", que no arquivo anterior continha nomes em caixa alta (caso dos senadores que estavam como presidentes), foi normalizada/padronizada. 3) "Eduardo Pazuello" e "Gen. Eduardo Pazuello", que apareciam em ambas as formas, foram unificadas.
- O script R pega a lista com as Notas Táquigráficas na página do Senado da CPI da Pandemia e atualiza a lista de notas taquigráficas, salva em
nt.lista
(que, apesar do nome, é um tibble/dataframe) - A partir de
nt.lista
gerado, o script baixa e estrutura os arquivos das notas taquigráficas. - Se parar o script, ele retoma onde parou. O critério de conferência é o arquivo .Rds existir e estar na pasta
rds
.- Deste modo, é possível ir atualizando com as novas notas taquigráficas que forem surgindo.
Veja o script neste link aqui.