-
Notifications
You must be signed in to change notification settings - Fork 1.2k
项目补充说明
resolvewang edited this page Oct 26, 2017
·
2 revisions
- 本项目运行环境是Python3.x,由于Py2和Py3关于字符编码完全不同,所以如果需要在Py2上运行该程序,需要修改解析模块的相关代码
- 建议使用linux或者mac作为worker节点,windows平台也可以作为worker节点,但是一定不能作为beat节点,并且celery版本要注意一致。
- 目前该项目已经抓取将近三十万条微博用户数据,如果有需要数据的同学,可以查看这里。
- 目前项目有普通抓取和极速抓取两种模式,细节请查看分布式微博爬虫的普通模式与极速模式
- 建议每台机器上都指定queue,目前发现如果启动worker的时候只指定
-c 1 -l info
而不指定-Q
的话,可能运行会出现问题 - 如果在同一个节点上开多个worker,需要使用
-n
指定worker的nodename
,否则可能出现警告,比如
celery -A tasks.workers worker -Q user_crawler -l info -c 1 -n worker1@%h