Skip to content

Commit

Permalink
docs: add detailed instruction for inspecting the contentid of linovelib
Browse files Browse the repository at this point in the history
  • Loading branch information
wdpm committed Nov 11, 2024
1 parent 5a799d3 commit 3b40a5e
Show file tree
Hide file tree
Showing 4 changed files with 18 additions and 3 deletions.
8 changes: 5 additions & 3 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -349,18 +349,20 @@ Don't need login, no threshold.
| image_download_folder | string | NO | "novel_images" | 图片下载临时文件夹. 不允许以相对路径../ 开头。 |
| pickle_temp_folder | string | NO | "pickle" | pickle 临时数据保存的文件夹。 |
| clean_artifacts | boolean | NO | True | 是否删除临时数据 / 工件,指的是 pickle 和下载的图片文件。 |
| crawling_contentid | string | NO | None | 用户自定义的正文内容的id,用于快速响应网页结构变化,[如何获取?](docs/inspect-linovelib-contentid-as-a-regular-user.md)。目前仅适用于linovelib。 |
| chapter_crawl_delay | number | NO | 3 | 爬取每个章的延迟秒数(s)。合理设置此参数可以降低被限流系统限制的频率。目前仅linovelib支持。 |
| page_crawl_delay | number | NO | 2 | 对于特定章,爬取每个页面的延迟秒数(s)。合理设置此参数可以降低被限流系统限制的频率。目前仅linovelib支持。 |
| custom_style_cover | string | NO | '' | 自定义 cover.xhtml 的样式 |
| custom_style_nav | string | NO | '' | 自定义 nav.xhtml 的样式 |
| custom_style_chapter | string | NO | '' | 自定义每章 (?.xhtml) 的样式 |
| disable_proxy | boolean | NO | True | 是否禁用所在的代理环境,默认禁用。如果你在本地使用网络代理,请务必留意是否应该设置该参数。 |
| image_download_strategy | string | NO | 'ASYNCIO' | 枚举值:"ASYNCIO"、"MULTIPROCESSING"、"MULTITHREADING"(未实现) |
| image_download_max_epochs | number | NO | 10 | 图片下载的最大尝试轮数。超过这个值则认为是网络中断或者源图片缺失,自动放弃。 |
| image_download_max_epochs | number | NO | 10 | 图片下载的最大尝试轮数。超过这个值则认为是网络中断或者源图片缺失,自动放弃。 |
| browser_path | string | NO | None | 浏览器的本地绝对路径。 |
| headless | boolean | NO | False | 是否显示浏览器窗口,默认为 False,即默认显示。目前仅哔哩轻小说支持该参数。 |
| http_timeout | number | NO | 10 | 一个 HTTP 请求的超时等待时间 (秒)。代表 connect 和 read timeout。目前仅应用于linovelib 页面。 |
| http_retries | number | NO | 10 | 当一个 HTTP 请求失败后,重试的最大次数。 目前仅应用于linovelib 页面。 |
| http_timeout | number | NO | 10 | 一个 HTTP 请求的超时等待时间 (秒)。代表 connect 和 read timeout。目前仅应用于linovelib 页面。 |
| http_retries | number | NO | 10 | 当一个 HTTP 请求失败后,重试的最大次数。 目前仅应用于linovelib 页面。 |



## Todo
Expand Down
Binary file added docs/assets/image-20241111165422618.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added docs/assets/image-20241111165605245.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
13 changes: 13 additions & 0 deletions docs/inspect-linovelib-contentid-as-a-regular-user.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,13 @@
# 普通用户如何获取轻小说正文的容器 ID

找一个你正在爬取的小说的某一卷的某一章的一个网页,在 chrome 中进行访问,下面以 [这个链接](https://tw.linovelib.com/novel/4126/236198_2.html) 为例:

![image-20241111165422618](assets/image-20241111165422618.png)

鼠标右键或者(Ctrl + U)查看网页源代码,在正文区域,会有一个这样的id,这就是程序需要的值。

由于网页的结构可能会发生改变,也可能是对方服务器为了反爬虫而给爬虫方出题。当程序过旧,而网页数据过新时,该爬虫就会失败。

修复的方法之一就是:用户主动传递最新的id值告诉爬虫程序。

![image-20241111165605245](assets/image-20241111165605245.png)

0 comments on commit 3b40a5e

Please sign in to comment.