处理大致流程:
- 解析所有车型数据 源文件参见
autohome.html
- 下载车型html -> shell脚本处理 html -> 解析处理后的 html -> 存数据库 (由于无法在线解析车型详细信息)
- 使用 sidekiq 队列下载html 及 图片
- 处理 html 页面脚本参见 bin/del.sh
#sidekiq 运行情况, 仅下载部分 页面
193,063 已处理 729 已失败 100 执行中 74,426 已进入队列 1 重试 0 已计划 0 已停滞
如该项目对您有帮助,欢迎打赏.
对数据有需求,请联系本人...
如有侵权,请联系本人删除...