使用Python3写的Coursera课程爬虫
master分支是使用Selenium来加载js页面,再通过正则匹配等解析数据,效率较低。
Coursera2分支是通过分析网络请求,直接通过接口请求页面json数据进行解析,效率较高。
multi-coursera 分支是在Coursera2的基础上增加多进程下载,充分利用cpu性能
-
命令行进入项目目录
-
运行命令
python3 coursera.py -e email -p password
email
和password
分别换成你自己的账号密码 -
输入你注册的课程主页地址