Skip to content

cv-cat/Spider_XHS

Repository files navigation

🎀Spider_XHS

✨ 专业的小红书数据采集解决方案,支持笔记爬取,保存格式为excel或者media

✨ 小红书全域运营解决方法,AI一键改写笔记(图文,视频)直接上传

⭐功能列表

⚠️ 任何涉及数据注入的操作都是不被允许的,本项目仅供学习交流使用,如有违反,后果自负

模块 已实现
小红书创作者平台 ✅ 二维码登录(未开源)
✅ 手机验证码登录(未开源)
✅ 上传(图集、视频)作品(未开源)
✅查看自己上传的作品(未开源)
小红书PC ✅ 二维码登录(未开源)
✅ 手机验证码登录(未开源)
✅ 获取无水印图片(开源)
✅ 获取无水印视频(开源)
✅ 获取主页的所有频道(开源)
✅ 获取主页推荐笔记(开源)
✅ 获取某个用户的信息(开源)
✅ 用户自己的信息(开源)
✅ 获取某个用户上传的笔记(开源)
✅ 获取某个用户所有的喜欢笔记(开源)
✅ 获取某个用户所有的收藏笔记(开源)
✅ 获取某个笔记的详细内容(开源)
✅ 搜索笔记内容(开源)
✅ 搜索用户内容(开源)
✅ 获取某个笔记的评论(开源)
✅ 获取未读消息信息(开源)
✅ 获取收到的评论和@提醒信息(开源)
✅ 获取收到的点赞和收藏信息(开源)
✅ 获取新增关注信息(开源)

🌟 功能特性

  • 多维度数据采集
    • 用户主页信息
    • 笔记详细内容
    • 智能搜索结果抓取
  • 🚀 高性能架构
    • 自动重试机制
  • 🔒 安全稳定
    • 小红书最新API适配
    • 异常处理机制
    • proxy代理
  • 🎨 便捷管理
    • 结构化目录存储
    • 格式化输出(JSON/EXCEL/MEDIA)

🎨效果图

处理后的所有用户

image

某个用户所有的笔记

image

某个笔记具体的内容

image

保存的excel

image

🛠️ 快速开始

⛳运行环境

  • Python 3.7+
  • Node.js 18+

🎯安装依赖

pip install -r requirements.txt
npm install

🎨配置文件

配置文件在项目根目录.env文件中,将下图自己的登录cookie放入其中,cookie获取➡️在浏览器f12打开控制台,点击网络,点击fetch,找一个接口点开 image

复制cookie到.env文件中(注意!登录小红书后的cookie才是有效的,不登陆没有用) image

🚀运行项目

python main.py

🗝️注意事项

  • main.py中的代码是爬虫的入口,可以根据自己的需求进行修改
  • apis/pc_apis.py中的代码包含了所有的api接口,可以根据自己的需求进行修改

🍥日志

日期 说明
23/08/09 - 首次提交
23/09/13 - api更改params增加两个字段,修复图片无法下载,有些页面无法访问导致报错
23/09/16 - 较大视频出现编码问题,修复视频编码问题,加入异常处理
23/09/18 - 代码重构,加入失败重试
23/09/19 - 新增下载搜索结果功能
23/10/05 - 新增跳过已下载功能,获取更详细的笔记和用户信息
23/10/08 - 上传代码☞Pypi,可通过pip install安装本项目
23/10/17 - 搜索下载新增排序方式选项(1、综合排序 2、热门排序 3、最新排序)
23/10/21 - 新增图形化界面,上传至release v2.1.0
23/10/28 - Fix Bug 修复搜索功能出现的隐藏问题
25/03/18 - 更新API,修复部分问题

🧸额外说明

  1. 感谢star⭐和follow📰!不时更新
  2. 作者的联系方式在主页里,有问题可以随时联系我
  3. 可以关注下作者的其他项目,欢迎 PR 和 issue
  4. 感谢赞助!如果此项目对您有帮助,请作者喝一杯奶茶~~ (开心一整天😊😊)
  5. thank you~~~
微信赞赏码支付宝收款码

📈 Star 趋势

Star History Chart

About

小红书爬虫数据采集,小红书全域运营解决方案

Resources

Stars

Watchers

Forks

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •