项目主要几大模块分别是调度器,爬取器,存储器,校验器块,接口模块。
1.调度器:负责调度爬取器和校验器的运行。
2.爬取器:负责爬取代理网站,并将所得到的代理存入到数据库,每个代理的初始化权值为 5。
3.存储器:封装了 Redis 操作的接口,提供 Redis 连接池。
4.校验器:验证代理 IP 是否可用,如果代理可用则权值 +1,最大值为 10。不可用则权值 -1,直至权值为 0 时将代理从数据库中删除。
5.接口模块:使用 sanic 提供 WEB API 。
目前接受的爬取代理ip网站有: 西刺代理 站大爷代理 66ip代理 快代理 无忧代理 ip海代理