Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于反爬 #15

Open
Rocket-bw opened this issue Dec 28, 2023 · 6 comments
Open

关于反爬 #15

Rocket-bw opened this issue Dec 28, 2023 · 6 comments

Comments

@Rocket-bw
Copy link

请问作者大佬,这俄格反爬是针对用户还是针对ip啊,什么速度以内不会被封号啊

@cv-cat
Copy link
Owner

cv-cat commented Dec 28, 2023

一下子爬3k个笔记会封,参考这个体积就行

@heriec
Copy link

heriec commented Jan 7, 2024

那爬取的时间间隔呢

一下子爬3k个笔记会封,参考这个体积就行

@cv-cat
Copy link
Owner

cv-cat commented Jan 7, 2024

就是一直爬 无间隔

@heriec
Copy link

heriec commented Jan 7, 2024

就是一直爬 无间隔

不,我的意思是,爬完3k条记录sleep多久可以执行下一次,后续账号再爬不了几条直接会登录过期了。
还有一个疑问,在搜索时的请求体中的一个search_id您写死的,但是我在使用搜索时发现这个值是可以变换的,好像不同的用户会拥有不同的值,所搜索的记录也是不一样的(我不确定是不是这样的),而当我想只搜索视频,note_type也就是1时,search_id与note_type=0时也不相同,不知道是什么算法导致的区别

@Seven-Circles
Copy link

就是一直爬 无间隔

不,我的意思是,爬完3k条记录sleep多久可以执行下一次,后续账号再爬不了几条直接会登录过期了。 还有一个疑问,在搜索时的请求体中的一个search_id您写死的,但是我在使用搜索时发现这个值是可以变换的,好像不同的用户会拥有不同的值,所搜索的记录也是不一样的(我不确定是不是这样的),而当我想只搜索视频,note_type也就是1时,search_id与note_type=0时也不相同,不知道是什么算法导致的区别

您好,我也想知道多久可以执行下一次,如果有答案了可以告知我吗?

@heriec
Copy link

heriec commented Jan 23, 2024

@Seven-Circles
3000次此次登录的cookie就失效了,但是我也不知道有没有好的机制可以规避,我尝试了下述方法,但是效果很差,最后爬了1w不到的数据,实在是账号被封以后再注销再注册登录太麻烦了,所以仅供参考。
因为搜索一个词条限制了200出头的个数,不够我用,所以我设置的多组词条搜索,每组7/8个关键词吧,所以每组200*7=1400篇,我就sleep1小时,每个关键词中间再sleep15分钟,实际会多爬一些,1k?,具体数量就没有统计了,不过还是会cookie失效,然后我再重新登录没几次这个账号不是刚登录就被顶下来,就是账号就封了,好像不会ban ip,直接封账号。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants