Skip to content

chaplinskiy/wsf_scraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

chaplinskiy/wsf_scraper

Тестовое задание для Web Security Fellowship.

Что это тут у нас:

Скрипт-парсер для скачивания фотографий работников департаментов МинОбрНауки РФ.

Как пользоваться:

Склонировать репозиторий и перейти в него в командной строке:

git clone https://github.com/chaplinskiy/wsf_scraper.git
cd wsf_scraper

Cоздать и активировать виртуальное окружение:

python3 -m venv env
source env/bin/activate

Установить зависимости из файла requirements.txt:

pip install -r requirements.txt

Запустить скрипт:

python3 scraper.py

Фотографии скачаются в папку data/jpg/.

Дисклеймер:

Однофамильцы фильтруются только по первому инициалу (т.е. по имени).

Если на сайте МинОбра вместо реальной фотографии сотрудника висит плейсхолдер – он тоже скачается. Таких случаев будет немного, их можно обработать вручную.

Другие проекты автора:

https://github.com/chaplinskiy/