LOCCS-Spider

Project Layout

Project Working Stream

从给定的txt文件中读取url到redis
从redis中取出url，根据url status存入redis
loccs_finish的url还会根据raw http content判断是否有登陆表单
并进行一次深度为1的链接提取（域名与父链接相同）
再次存入redis后续递归

spider.py 爬虫主体多进程(默认10)
config.py 配置文件 redis密码 logstash端口等
randomHP.py 随机header 代理池
myRedis.py Redis 增，删，状态读取

实际运行的时候只需要将spider.py里level="DEBUG"设置成level="NONE"即可

url status

loccs_todo
loccs_finish
- loccs_login_form
loccs_timeout
loccs_forbidden
loccs_error

Development

安装依赖 pip3 install coloredlogs pyredis
使用docker启动一个redis sudo docker run --rm -d --name redis -v ./data:/data -p 6379:6379 redis --requirepass 'your_password'

OR

使用bash脚本 sudo bash start.sh

TODO

部署上ELK？
js rendering?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LOCCS-Spider

Project Layout

Project Working Stream

Development

TODO

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
data		data
.gitignore		.gitignore
README.md		README.md
config.py		config.py
myRedis.py		myRedis.py
randomHP.py		randomHP.py
spider.py		spider.py
start.sh		start.sh

w1ndseek2/LOCCS_Spider

Folders and files

Latest commit

History

Repository files navigation

LOCCS-Spider

Project Layout

Project Working Stream

Development

TODO

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages