Boletín Oficial – Segunda Sección

Proyecto para analizar el contenido de la Segunda Sección del Boletín Oficial de la República Argentina.

Uso

1. Bajarse los PDF

El comando fetch baja los PDF de las tres secciones del BO para cada día. Comienza del día de hoy hacia atrás. Se puede cortar en cualquier momento (Ctrl-C) y al correrlo nuevamente arranca desde donde dejó.

$ ./bin/fetch

2. Cargar la base de datos de nombres

La extracción de nombres que hacemos utiliza una base de datos de nombres. Para evitar cargar en memoria esta base cada vez que se corre el programa, hacemos un prellenado en Redis. (No es ideal, pero si a alguien se le ocurre algo mejor, que avise.)

Este proceso se corre una sola vez.

$ rake names

3. Correr el parser

El comando parse lee standard input y extrae nombres de sociedades y personas. Para pasar el PDF a texto, utilizamos pdftotext (provisto por el paquete poppler o poppler-utils).

Para procesar un solo día:

$ pdftotext -raw 20120210-02.pdf - | ./bin/parse

Para muchos días:

$ find . -name '*-02.pdf' | while read file; do pdftotext -raw "$file" - | ./bin/parse; done

Desarrollo

¡Hay tests!

$ rake

Para agregar funcionalidad y corregir bugs, por favor reproducir los casos en los tests, así no rompemos nada a futuro.

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
bin		bin
lib		lib
test		test
webapp		webapp
.gitignore		.gitignore
README.md		README.md
Rakefile		Rakefile
boletin.rb		boletin.rb
names.json		names.json
redis.conf		redis.conf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Boletín Oficial – Segunda Sección

Uso

1. Bajarse los PDF

2. Cargar la base de datos de nombres

3. Correr el parser

Desarrollo

About

Releases

Packages

Contributors 2

Languages

garagelab/boletin-sociedades

Folders and files

Latest commit

History

Repository files navigation

Boletín Oficial – Segunda Sección

Uso

1. Bajarse los PDF

2. Cargar la base de datos de nombres

3. Correr el parser

Desarrollo

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages