Этот проект представляет собой парсер для извлечения данных о товарах с веб-сайтов.
Цель данного проекта - автоматизация сбора информации о товарах, включая их ID, названия, цены и даты, с веб-страниц. Это позволяет пользователям быстро и эффективно собирать данные для анализа или других целей.
-
Клонируйте репозиторий:
git clone https://github.com/Maxim2710/marketplace-parser.git cd marketplace-parser
-
Создайте виртуальное окружение:
python -m venv venv
-
Активируйте виртуальное окружение:
-
Для Windows:
venv\Scripts\activate
-
Для macOS/Linux:
source venv/bin/activate
-
-
Установите необходимые зависимости:
pip install -r requirements.txt
-
Запустите парсер:
python avito-parser.py python wildberries-parser.py
-
Когда будет предложено, введите ссылку на страницу каталога товаров, который вы хотите парсить.
-
Введите минимальную и максимальную цены для фильтрации товаров.
-
После завершения парсинга данные будут сохранены в формате CSV в директории
result
с именем, состоящим из названия каталога и текущей даты.
- Перед запуском парсера убедитесь, что у вас установлен geckodriver и он доступен в PATH для работы с Firefox.
- Проверьте, что ваш интернет-соединение активно, так как парсер требует доступа к веб-страницам.
- Убедитесь, что URL, который вы вводите для парсинга, действительно соответствует каталогу с товарами, чтобы избежать ошибок при извлечении данных.
- Вы можете изменить минимальную и максимальную цены в соответствии с вашими потребностями для получения только тех товаров, которые вам интересны.
Проект требует установки следующих библиотек:
selenium
beautifulsoup4
dateparser
Список всех зависимостей можно найти в файле requirements.txt
.
- Убедитесь, что у вас установлен geckodriver и он доступен в PATH для работы с Firefox.