We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
我之前也做过一个爬虫的小项目,你说的该项目的特点挺好的,但是就我个人而言,不是非常在意。感觉最关心的内容如下:
javascript 支持。很多网页,包括当当,苏宁等,有部分数据都是通过 javascript 渲染得到的,这个框架是否提供支持,可能这个是使用者应该做的,但是这种场景下,框架有和优势。
性能。对于一本的文本网页,其实性能都不是问题,主要和网速有关。但是在这种场景下: 1. 租的vps, 当然越便宜越好,性能也越差。 2. 起一个支持 javascript 的 core,耗内存非常严重(当然相对于租的 vps 而言) 这样一来性能就很敏感了,比起线程,我更倾向于协程。
反扒。这个真的是非常让人头疼的问题,之前做的最让人头疼的就是爬亚马逊。基本无解,但是对于豆瓣这种,应该还是可以解决的,这个框架是否有相应的应对措施?
这是我选择一个爬虫框架考虑的点,省时、省钱、省事。不过作者这个框架确实是很与众不同的,支持!
The text was updated successfully, but these errors were encountered:
你好,我这个项目主要是使用框架的示例,并不是爬虫框架。项目是基于 Java 的爬虫框架 webmagic 实现的,我这个主要作为上手和休闲,不太建议用这个上生产环境。
Sorry, something went wrong.
好的,明白了。会持续关注与支持~
No branches or pull requests
我之前也做过一个爬虫的小项目,你说的该项目的特点挺好的,但是就我个人而言,不是非常在意。感觉最关心的内容如下:
javascript 支持。很多网页,包括当当,苏宁等,有部分数据都是通过 javascript 渲染得到的,这个框架是否提供支持,可能这个是使用者应该做的,但是这种场景下,框架有和优势。
性能。对于一本的文本网页,其实性能都不是问题,主要和网速有关。但是在这种场景下:
1. 租的vps, 当然越便宜越好,性能也越差。
2. 起一个支持 javascript 的 core,耗内存非常严重(当然相对于租的 vps 而言)
这样一来性能就很敏感了,比起线程,我更倾向于协程。
反扒。这个真的是非常让人头疼的问题,之前做的最让人头疼的就是爬亚马逊。基本无解,但是对于豆瓣这种,应该还是可以解决的,这个框架是否有相应的应对措施?
这是我选择一个爬虫框架考虑的点,省时、省钱、省事。不过作者这个框架确实是很与众不同的,支持!
The text was updated successfully, but these errors were encountered: