Baixa e processa os arquivos referentes candidatos nas eleições de 1994 a 2020
Fonte: Tribunal Superior Eleitoral
|-- processing
| |-- mapping
| |-- elasticsearch_interface.py
| |-- main.py
|
|-- tse_candidatos
| |-- data
| |-- tse_candidatos
| | -- spiders
| | -- candidatos.py
| | -- processing.py
|
| | -- items.py
| | -- middlewares.py
| | -- pipelines.py
| | -- settings.py
|
|-- Pipfile
|-- Pipfile.lock
|-- README.md
`-- docker-compose.yml
Este projeto requer Python 3.+ e a instalação do Pipenv, arquivo que contém as dependências do projeto. Para instalá-lo, execute:
pip install pipenv
Caso haja algum problema durante a instação do pacote, veja a documentação da ferramenta.
Faça o clone deste projeto e execute o arquivo Pipenv:
$ git clone https://github.com/julianyraiol/tse-data-pipeline.git
$ cd tse-data-pipeline
$ pipenv install
$ pipenv shell
Esta etapa realiza o download dos arquivos referente aos candidatos.
No seu terminal, já tendo executado o arquivo de instalação, execute o seguinte comando:
$ scrapy crawl candidatos
Os arquivos estarão armazenados napasta data.
Para extrair os arquivos, basta executar o seguinte comando:
$ scrapy crawl processing
Execute o docker-compose para criar uma instância local do elasticsearch. Ele ficará rodando na endereço: http://localhost:9200/.
$ docker-compose up -d
Após isso, no diretório raiz, execute o seguinte comando para criar um index no elasticsearch e inserir dados.
$ python3 -m processing.main
curl -X GET "localhost:9200/candidatos/_search?pretty"