douban-spider

豆瓣电影相关信息爬取。也看了一些爬虫程序，很多人都说有反爬机制，只能说，没看官方文档，一味的爬取必然会导致封IP。这是我毕业设计的一个模块，供各位参考使用，很简单，有java环境直接就能运行。

豆瓣的电影信息url为：String url = "https://movie.douban.com/subject/" + id + "/"; // 构建URL 前缀都是一样的，只有id不同，可按需修改。反爬机制基本上都完善了，错误处理机制也完善了，最后输出文件为json数组（自动创建）

没有上传完整的程序包，也简单就一个类，缺少依赖的话看pom文件，json和jsoup

int delay = random.nextInt(1000) + 5000; // 生成5000ms到6000ms之间的随机数作为延时时间这行代码不要小于五秒，官方文档说了间隔时间小于五秒的都会封IP，经过我设计前期多次测试，小于五秒的话爬取四五条数据就会被封，但不是永久，大概十几个小时的样子。其他代码不懂不要乱动，我都设置成了最优的模式。

输出结果有些键值对value为空是因为豆瓣本身的数据就不完善，有些小众电影或特殊电影不可能同时包含主演/导演/编剧等等，比如小猪佩奇主演不能是猪吧，这种只有配音和导演等。

尽管计算机专业代码不查重，但还是在这里插个眼。本代码最终提交毕设时间为2023年6月10日，本设计不盈利，设计时未抄袭。上传GitHub行为仅属于为爱发电。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

douban-spider

Files

README.md

Latest commit

History

README.md

File metadata and controls

douban-spider