非Scrapy版本的在这 ---> here
- 使用中有问题的可以提个issue让我改进改进
-
开发环境: Win10 x64
-
Python版本: Python3.4.4
-
Python依赖:
- Scrapy
- requests
- pymongo
- twisted
- PyDispatcher
-
安装方式:
pip install -r requirements.txt
- 启动的时候会有个Warning(可以忽略): ScrapyDeprecationWarning: Module
scrapy.conf
is deprecated, usecrawler.settings
attribute instead
# scrapy crawl LaGou -a search_name=大数据 --- 已经不用这种方法了
# 根目录下:
python start_spider.py -name 大数据
长时间爬取会进入假死状态(已解决)
修改启动方式- (优先) 增量的方法待完善
- (优先) 定时任务
- 进度监控
- 接入到Gerapy
- 项目中的lagou_login代码来自 拉勾网的模拟登录