-
Notifications
You must be signed in to change notification settings - Fork 1.2k
项目补充说明
resolvewang edited this page Sep 23, 2017
·
2 revisions
- 本项目运行环境是Python3.x,由于Py2和Py3关于字符编码完全不同,所以如果需要在Py2上运行该程序,需要修改解析模块的相关代码
- 建议使用linux或者mac作为worker节点,windows平台也可以作为worker节点,但是一定不能作为beat节点,并且celery版本要注意一致。
- 目前该项目已经抓取将近三十万条微博用户数据,如果有需要数据的同学,可以查看这里。
- 目前项目有普通抓取和极速抓取两种模式,细节请查看分布式微博爬虫的普通模式与极速模式
- 建议每台机器上都指定queue,目前发现如果启动worker的时候只指定
-c 1 -l info
而不指定-Q
的话,可能运行会出现问题 - 如果不需要登录的模块建议就别使用cookie进行抓取,因为这样账号的负载更小。至于哪些信息不需要登录,且是有价值的,这个还会再进行调研,和等待用户的反馈。
- 如果是开发版,可能会存在运行出问题的情况,所以建议通过release页面下载稳定版
- 文档方面,目前在WiKi中有一些较为系统的知识。如果使用过程中遇到问题,可以给该项目提issue, 也可以加QQ群交流,群号是:499500161, 暗号是:微博爬虫。注意加群务必备注信息,否则将视为广告而拒绝!