-
Notifications
You must be signed in to change notification settings - Fork 54
/
配置.py
33 lines (26 loc) · 1.83 KB
/
配置.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
from pathlib import Path
# 注释的内容都是加大这些参数的情况下的变化
单键最多url = 11000 # 增加多关键词查找能力,增加硬盘消耗,略微降低爬取效率
单键最多相同域名url = 20 # 增加有效结果的相关性,减少有效结果数量
大清洗行数 = 10000000 # 增加平均爬取效率,增加峰值内存
单键最多新增url = 10000 # 减少键的url的增长速度
新增键需url数 = 3 # 减少键的增长速度
爬虫的名字 = 'loli_spider'
爬虫冷却时间 = 3
爬取线程数 = 22 # 增加爬取效率,增加网络和CPU消耗
爬取集中度 = 0.7 # 增加爬取目标集中在单个域名下的概率 (超过1的值没有效果)
单网页最多关键词 = 250
最大epoch = 100 # 增加爬取的均匀度,增加爬取出现异常的概率
预期繁荣网站比例 = 0.6 # 增加每个epoch中带有高反向链接权重的域名的数量
入口 = 'https://zh.wikipedia.org/'
使用在线摘要 = True # 增加搜索结果信息的可读性,增加搜索时间
在线摘要限时 = 3 # 减少信息不完整的搜索结果数量,增加搜索时间
权重每日衰减 = 0.996 # 增加已经过期的网站的权重
语种权重 = 0.5 # 增加中文网站的权重,减少我看不懂的语种的网站的权重
连续关键词权重 = 1.3 # 增加连续的关键词的权重,例如搜索「萝莉美少女」时,「萝莉美少女」会有加成,但是「萝莉和美少女」没有
反向链接权重 = 1 # 增加反向链接更多的网站的权重
减权关键词 = []
减权关键词权重 = 0.1 # 减少含有减权关键词的域名的权重
人服务器端口 = 80
反向链接基准值 = 200000 # 增加反向链接更多的网站的权重。也影响存储,修改时可能会丢失数据。
存储位置 = Path('./savedata')