微信公众号文章爬虫

批量抓取微信公众号的历史文章与评论。

Inspired by vWeChatCrawl。相比之下，本工具的优点是能够抓取文章评论、断点续抓。

原理

抓取微信公众号通常有以下几种方式：

使用 Sogou 的微信搜索接口。优点是非常简单，成本低；缺点是只能抓取最近的 10 篇文章，且无法抓取评论。
使用微信 App 的原生接口，在安卓虚拟机中安装微信 App，使用 adt 进行调试抓取。缺点是成本太高。
使用 Fiddler 对 Windows 微信进行抓包，然后仿造请求信息。优点是开发简单，且能够抓取评论；缺点是需要人工参与，不能实现完全自动化。

由于微信严格的防御机制，cookie 等请求参数会迅速过期，难以稳定抓取（文章评论接口的相关参数会在几十分钟内过期并更新，文章内容接口则相对稳定）。这导致任何通过破解请求接口进行抓取的方式都不能完全自动化。

本仓库采用第三种方式，具体原理如下：

使用 Windows 微信请求历史文章列表页面，同时使用 Fiddler 对其抓包，保存抓取到的文章列表。
解析 Fiddler 保存的文章列表，其中包含文章的元信息与 URL 地址。依次访问并下载每一篇文章，保存为 html 格式。
从 Fiddler 抓到的 Cookies 以及文章内的 script 标签中提取必要字段，构造出请求文章评论的 URL。关键字段包括 comment_id，pass_ticket 等。评论接口的具体形式可以通过 Fiddler 抓包获取。
把文章整合成单个 HTML 文件，将元信息、图片、评论等嵌入其中。

使用方法

1. 使用 Fiddler 对公众号历史文章目录进行抓包。

下载并安装最新版 Fiddler。
打开 Fiddler 即开始监听本地所有 HTTP 请求。由于很多软件都会进行网络访问，为了减少干扰，需要在 Fiddler 中设置 filter。如下图所示，将其中的 Hosts 设为 mp.weixin.qq.com，URL contains 设为 /mp/profile_ext?action=home /mp/profile_ext?action=getmsg。如此以来，Fiddler 就只会监控对微信公众号历史文章列表的请求。
确保 Fiddler 窗口左下角出现“Capturing”字样，此时处于监控状态。如果是空白的，就用鼠标点击一下。
打开电脑版微信，进入要抓取的公众号，并打开其历史文章列表页面。打开方式见下图
打开历史文章列表后，可以看到 Fiddler 已经记录了一条请求，这条请求对应历史文章主页。在历史文章页继续向下滚动，当观察到底部出现刷新动画时，Fiddler 会增加一条新的记录。不断向下滚动，所有刷新出来的文章均会被 Fiddler 抓取。
Fiddler 抓到的请求中包含着文章列表的完整信息，我们需要将其保存下来供爬虫使用。选中待抓取的请求（由于已经设置了过滤规则，所以全选即可），点击菜单栏“File -> Export Sessions -> Selected Sessions”，保存格式选择 “Raw File”，然后指定输出目录即可。如下图所示：
此时文章列表及其链接地址已经就绪，但要成功抓取文章还需要完成“认证”这一步。认证中会用到很多参数和 Cookie 等，想要破解这些参数的生成规则是非常困难的，因此我们直接借用 Fiddler 截获到的 Cookies。选中最后一个请求，点击菜单栏“File -> Save -> Request -> Entire Request”，将其保存到上一步的输出目录，并命名为 request.txt。如下图所示：
经过一定时间后，request.txt 中的参数将会过期，导致抓取失败。此时不必重新导出文章列表，只需要单独更新 request.txt 即可。因此导出文章列表是一劳永逸的。注意：有些抓取方案中并没有导出 request.txt 这一步，这种方案只能抓取文章内容，不能抓取文章评论。

2. 配置爬虫

爬虫会从 config.json 中读取必要的配置项，配置文件内容如下：

{
    // 爬虫的输入目录，也就是 Fiddler 的导出目录
    "input_dir": "C:\\Users\\Zhangsan\\Desktop\\Dump-1031-16-31-31",
    // request 文件名，对应之前导出的 request.txt
    "raw_request": "request.txt",
    // 抓取后的输出目录
    "output_dir": ".\\output\\人民日报"
}

3. 开始抓取

打开控制台，执行 main.py 即开始抓取：

python main.py

4. 查看结果

文件命名形式为 日期-标题.html，方便浏览：

文章的内容、日期等元信息、图片、评论等会被打包到单个 HTML 文件中，使用浏览器打开即可阅读，如下图所示：

爬虫支持断点续抓，在出错或人为中断后，重新执行抓取命令将继续之前的进度。抓取进度实时保存在输出目录的 record.txt 文件中。

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
README.md		README.md
config.default.json		config.default.json
main.py		main.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

微信公众号文章爬虫

原理

使用方法

1. 使用 Fiddler 对公众号历史文章目录进行抓包。

2. 配置爬虫

3. 开始抓取

4. 查看结果

About

Releases

Packages

Languages

hzhu212/wechat-mp-crawler

Folders and files

Latest commit

History

Repository files navigation

微信公众号文章爬虫

原理

使用方法

1. 使用 Fiddler 对公众号历史文章目录进行抓包。

2. 配置爬虫

3. 开始抓取

4. 查看结果

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages