Implementacion del boletin oficial provincial de Granada. #65

jpuerto · 2024-02-24T14:09:02Z

He creado una primera versión del scrapper para el boletín provincial de Granada.

Por desgracia la página no es muy amigable y solo disponemos de un PDF con la información de toda la provincia. Para hacerlo mas complicado el PDF suele tener una disposición en 2 columnas para algunas páginas y normal en otras.

Para el procesamiento he utilizado pdfminer.six.

Funciona del siguiente modo:

Descargando el PDF en un archivo temporal.
Extrayendo el PDF en otro fichero temporal.
El fichero de texto es procesado linea a linea:
- Si la linea está cumple con uno de las expresiones regulares para ignorar la linea. Normalmente esto es para lineas que no aportan nada de información.
- Extracción de metadatos, si la linea cumple con algún extractor de metadatos, los datos de este se extraen a un diccionario que se fusiona con el actual.
- Detección de contenido, en esta fase buscamos el texto de tipo "NÚMERO ###" que es el texto que aparece antes de cada edicto.
- Si se encuentra el contenido se procesan las lineas para limpiar los saltos de linea y eliminar los guiones al final de las palabras.
Cada edicto se añade como metadatos.

Todavía faltan por recoger metadatos como por ejemplo el ayuntamiento y el título del edicto. Solo he probado un par de boletines, pero algunos edictos no es capaz de leerlos correctamente. El problema es sobre todo la disposición del contenido en dos columnas que hace difícil el procesamiento automático.

…and testing.

* Add default line limit to process general metadata. * Add log information. * Use try-catch to log edict processing errors. * Update main to test date ranges. * Add subject metadata extractor for content.

jpuerto · 2024-03-01T12:26:21Z

El boletín provincial de Granada está siendo un reto complicado, el problema de parsear PDFs son muchos:

El contenido no está pensado para ser procesado de manera automática, si no para ser impreso. Esto limita con respecto a otras tecnologías que tienen semántica.
Esto implica que, si el boletín cambia con los años, tenemos que crear un nuevo scrapper. Gracias a la extracción de texto, la primera linea de cada boletín, aunque no sea visible, es de un boletín de 2008. Si consultamos boletines anteriores efectivamente el formato ha cambiado.
Como no tenemos semántica, tenemos que buscarla en el contenido del boletín. Esto es susceptible de fallos ya que, en algunos casos, probablemente errores de publicación o redacción, estos contenidos se omiten o cambian.

He hecho pruebas con un pequeño script en main.py y "scrapeado" desde el 1 de enero de 2023 hasta día de hoy. A ojo un 90~95% del contenido se "scrapea" sin problemas. Aquí dejo una muestra
bopgr-output.log

No digo que no se puedan procesar los boletines en PDF, pero van a dar mucho trabajo. :)

ntkog · 2024-03-25T12:22:29Z

El boletín provincial de Granada está siendo un reto complicado, el problema de parsear PDFs son muchos:

El contenido no está pensado para ser procesado de manera automática, si no para ser impreso. Esto limita con respecto a otras tecnologías que tienen semántica.

Esto implica que, si el boletín cambia con los años, tenemos que crear un nuevo scrapper. Gracias a la extracción de texto, la primera linea de cada boletín, aunque no sea visible, es de un boletín de 2008. Si consultamos boletines anteriores efectivamente el formato ha cambiado.

Como no tenemos semántica, tenemos que buscarla en el contenido del boletín. Esto es susceptible de fallos ya que, en algunos casos, probablemente errores de publicación o redacción, estos contenidos se omiten o cambian.

He hecho pruebas con un pequeño script en main.py y "scrapeado" desde el 1 de enero de 2023 hasta día de hoy. A ojo un 90~95% del contenido se "scrapea" sin problemas. Aquí dejo una muestra bopgr-output.log

No digo que no se puedan procesar los boletines en PDF, pero van a dar mucho trabajo. :)

@jpuerto échale un ojo a esto:

UDOP - Microsoft

Javier Puerto added 2 commits February 24, 2024 14:48

Create first implementation of BOPGR. Needs more metadata extraction …

cf59c37

…and testing.

* Separate between general metadata and content metadata.

81b8e17

* Add default line limit to process general metadata. * Add log information. * Use try-catch to log edict processing errors. * Update main to test date ranges. * Add subject metadata extractor for content.

jpuerto marked this pull request as ready for review March 1, 2024 12:29

Merge branch 'bukosabino:main' into bopgr-scrapper

974397d

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Implementacion del boletin oficial provincial de Granada. #65

Implementacion del boletin oficial provincial de Granada. #65

jpuerto commented Feb 24, 2024

jpuerto commented Mar 1, 2024

ntkog commented Mar 25, 2024

Implementacion del boletin oficial provincial de Granada. #65

Are you sure you want to change the base?

Implementacion del boletin oficial provincial de Granada. #65

Conversation

jpuerto commented Feb 24, 2024

jpuerto commented Mar 1, 2024

ntkog commented Mar 25, 2024