Skip to content

Práctica 1. Tipología y Ciclo de Vida de los Datos. Caso práctico de Web Scraping orientado a aprender a identificar los datos relevantes por un proyecto analítico y usar las herramientas de extracción de datos.

License

Notifications You must be signed in to change notification settings

JAlbarrn/TCV_P1_WebScraping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

TCV_P1_WebScraping

Práctica 1. Tipología y Ciclo de Vida de los Datos. Caso práctico de Web Scraping orientado a aprender a identificar los datos relevantes por un proyecto analítico y usar las herramientas de extracción de datos.

Estructura del proyecto.

  • main.py: este archivo es el punto de entrada a la aplicación y desde donde se llama al paquete principal
  • /src/scrapy.py: se implementa toda la logica del scraping la cual esta divida en 4 funciones.
    • control(): cuya responsabilidad es controlar que solo se pueda hacer scraping una vez al día.
    • get_nivel_1(): encargada de recuperar los datos del nivel 1
    • get_nivel_2(): encargada de recuperar los datos del nivel 2
    • create_csv(): encargada de escribir los datos capturados a un documento .csv guardado en el directorio /csv

Publicación del dataset.

El dataset obtenido ha sido publicado en https://zenodo.org/ con DOI: DOI

Autores.

Francisco Javier Albarrán González
Enrique Villalobos Torregrosa

About

Práctica 1. Tipología y Ciclo de Vida de los Datos. Caso práctico de Web Scraping orientado a aprender a identificar los datos relevantes por un proyecto analítico y usar las herramientas de extracción de datos.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages