Skip to content

项目补充说明

resolvewang edited this page Oct 26, 2017 · 2 revisions
  • 本项目运行环境是Python3.x,由于Py2和Py3关于字符编码完全不同,所以如果需要在Py2上运行该程序,需要修改解析模块的相关代码
  • 建议使用linux或者mac作为worker节点,windows平台也可以作为worker节点,但是一定不能作为beat节点,并且celery版本要注意一致。
  • 目前该项目已经抓取将近三十万条微博用户数据,如果有需要数据的同学,可以查看这里
  • 目前项目有普通抓取和极速抓取两种模式,细节请查看分布式微博爬虫的普通模式与极速模式
  • 建议每台机器上都指定queue,目前发现如果启动worker的时候只指定-c 1 -l info而不指定-Q的话,可能运行会出现问题
  • 如果在同一个节点上开多个worker,需要使用-n指定worker的nodename,否则可能出现警告,比如

celery -A tasks.workers worker -Q user_crawler -l info -c 1 -n worker1@%h

  • 如果不需要登录的模块建议就别使用cookie进行抓取,因为这样账号的负载更小。至于哪些信息不需要登录,且是有价值的,这个还会再进行调研,和等待用户的反馈。
  • 如果是开发版,可能会存在运行出问题的情况,所以建议通过release页面下载稳定版
  • 文档方面,目前在WiKi中有一些较为系统的知识。如果使用过程中遇到问题,可以给该项目提issue, 也可以加QQ群交流,群号是:499500161, 暗号是:微博爬虫。注意加群务必备注信息,否则将视为广告而拒绝!