Skip to content

Latest commit

 

History

History
16 lines (11 loc) · 1.5 KB

README.md

File metadata and controls

16 lines (11 loc) · 1.5 KB

douban-spider

豆瓣电影相关信息爬取。也看了一些爬虫程序,很多人都说有反爬机制,只能说,没看官方文档,一味的爬取必然会导致封IP。这是我毕业设计的一个模块,供各位参考使用,很简单,有java环境直接就能运行。

豆瓣的电影信息url为:String url = "https://movie.douban.com/subject/" + id + "/"; // 构建URL 前缀都是一样的,只有id不同,可按需修改。 反爬机制基本上都完善了,错误处理机制也完善了,最后输出文件为json数组(自动创建)

没有上传完整的程序包,也简单就一个类,缺少依赖的话看pom文件,json和jsoup

int delay = random.nextInt(1000) + 5000; // 生成5000ms到6000ms之间的随机数作为延时时间 这行代码不要小于五秒,官方文档说了间隔时间小于五秒的都会封IP,经过我设计前期多次测试,小于五秒的话爬取四五条数据就会被封,但不是永久,大概十几个小时的样子。 其他代码不懂不要乱动,我都设置成了最优的模式。

输出结果有些键值对value为空是因为豆瓣本身的数据就不完善,有些小众电影或特殊电影不可能同时包含主演/导演/编剧等等,比如小猪佩奇主演不能是猪吧,这种只有配音和导演等。

尽管计算机专业代码不查重,但还是在这里插个眼。本代码最终提交毕设时间为2023年6月10日,本设计不盈利,设计时未抄袭。上传GitHub行为仅属于为爱发电。