Skip to content

Commit

Permalink
doc: 提供仓库功能列表表格
Browse files Browse the repository at this point in the history
  • Loading branch information
NanmiCoder committed Dec 1, 2023
1 parent 5affc8a commit e7f68dd
Showing 1 changed file with 23 additions and 29 deletions.
52 changes: 23 additions & 29 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -14,54 +14,48 @@

欢迎大家贡献代码提交PR

目前爬虫正在用的IP代理:[极速HTTP代理](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang) 新用户注册认证最高送12000IP,0元试用<br>
[![极速HTTP代理-官网图](https://s2.loli.net/2023/11/30/RapQtL8A2w6TGfj.png)](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang)
<br>目前爬虫正在用的IP代理:[极速HTTP代理](https://www.jisuhttp.com/?pl=mAKphQ&plan=ZY&kd=Yang), 新用户注册认证最高送12000IP,0元试用

## 已实现

- [x] 小红书登录(二维码、手机号、cookies)
- [x] 小红书Sign请求签名
- [x] 小红书指定关键词爬去
- [x] 小红书指定帖子爬去
- [x] 抖音Sign请求签名
- [x] 抖音登录(二维码、手机号、cookies)
- [x] 抖音滑块(模拟滑动实现,准确率不太OK)
- [x] 抖音指定关键爬取
- [x] 抖音指定帖子爬取
- [x] 快手指定关键词爬取
- [x] 支持登录成功后的上下文浏览器环境保留
- [x] 代理池实现(手机号+IP)
- [x] 并发执行爬虫请求
- [x] 数据保存到CSV中(默认)
- [x] 数据保持到数据库中(可选)

## 待实现

- [ ] 快手登录(二维码、手机号)


## 功能列表
| 平台 | Cookie 登录 | 二维码登录 | 手机号登录 | 关键词搜索 | 指定视频/帖子 ID 爬取 | 登录状态缓存 | 数据保存 | IP 代理池 | 滑块验证码 |
|:---:|:---------:|:-----:|:-----:|:-----:|:-------------:|:------:|:----:|:------:|:-----:|
| 小红书 ||||||||||
| 抖音 ||||||||||
| 快手 ||||||||||
| B 站 ||||||||||
| 微博 ||||||||||


## 使用方法

1. 安装依赖库
1. 创建 python 虚拟环境
```shell
python3 -m venv venv
```

2. 安装依赖库

```shell
pip install -r requirements.txt
```

2. 安装playwright浏览器驱动
3. 安装playwright浏览器驱动

```shell
playwright install
```

3. 是否保存数据到DB中
4. 是否保存数据到DB中

如果选择开启,则需要配置数据库连接信息,`config/db_config.py` 中的 `IS_SAVED_DATABASED``RELATION_DB_URL` 变量。然后执行以下命令初始化数据库信息,生成相关的数据库表结构:

```shell
python db.py
```

4. 运行爬虫程序
5. 运行爬虫程序

```shell
# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
Expand All @@ -75,9 +69,9 @@

```

5. 打开对应APP扫二维码登录
6. 打开对应APP扫二维码登录

6. 等待爬虫程序执行完毕,数据会保存到 `data/xhs` 目录下
7. 等待爬虫程序执行完毕,数据会保存到 `data/xhs` 目录下

## 常见程序运行出错问题
```shell
Expand Down

0 comments on commit e7f68dd

Please sign in to comment.