-
Notifications
You must be signed in to change notification settings - Fork 1.9k
关于scrapy的问题 #49
Comments
Good idea! 爬之前建议先清空mongodb数据库中漏洞的数据、web目录下的静态html文件和图片;scrapy�处理逻辑在piplines.py和WooyunSpider.py中,前者主要是保存内容到数据库及本地Html与图片文件,后都主要是内容抓取;注意url路径的处理。可以修改py代码之后先爬几页数据,达到目的后再全部爬取。爬完之后,要同步到elasticsearch,可参考之前我处理的过程。祝一切顺利。 |
1)elasticsearch感觉会是问题,之前尝试部署一样的环境时,在生成索引时不仅假死而且失败。你指的同步到elasticsearch也是指生成索引吧? |
爬取发现原有的40G大小捉襟见肘,需要扩容到50G以上: |
重新拜读了一下文件层级以及代码,然后结合之前完成爬取的图片内容,并且修复了漏洞文章内的90%链接跳转,重新搭建了该环境并且更新到了线上 |
试验了一下发现点击大图,以及厂商和白帽信息的获取上,都存在问题,如果要都实现可用会需要重新爬取以及修改后端技术栈的可能,并且静态大图的统计为27G,超过了云主机的空间,因此考虑调整架构,多建一个静态的8w库来方便跳转吧这样就可以将链接还原到98%了吧。 |
打算用4w的那个虚拟机去爬那个8w的虚拟机,以达到完全复原,有什么需要注意的事情?或者任何建议?我不大确定你scrapy里的设置,我还在阅读你的代码
The text was updated successfully, but these errors were encountered: