Proyecto para analizar el contenido de la Segunda Sección del Boletín Oficial de la República Argentina.
El comando fetch
baja los PDF de las tres secciones del BO para
cada día. Comienza del día de hoy hacia atrás. Se puede cortar en
cualquier momento (Ctrl-C) y al correrlo nuevamente arranca desde donde
dejó.
$ ./bin/fetch
La extracción de nombres que hacemos utiliza una base de datos de nombres. Para evitar cargar en memoria esta base cada vez que se corre el programa, hacemos un prellenado en Redis. (No es ideal, pero si a alguien se le ocurre algo mejor, que avise.)
Este proceso se corre una sola vez.
$ rake names
El comando parse
lee standard input y extrae nombres de sociedades y
personas. Para pasar el PDF a texto, utilizamos pdftotext
(provisto
por el paquete poppler
o poppler-utils
).
Para procesar un solo día:
$ pdftotext -raw 20120210-02.pdf - | ./bin/parse
Para muchos días:
$ find . -name '*-02.pdf' | while read file; do pdftotext -raw "$file" - | ./bin/parse; done
¡Hay tests!
$ rake
Para agregar funcionalidad y corregir bugs, por favor reproducir los casos en los tests, así no rompemos nada a futuro.