Skip to content

zperfet/job51Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

job51Crawler

Crawler for http://www.51job.com/

(网站未找到robots.txt文件,如果有且个人代码有不合适之处,可联系我删除或者修改。)

目标是爬取51job网站的全部职位用于数据分析。

crawlerSpecial: 和特定爬虫有关的参数和函数,目前是和51job这个网站有关的一些参数和函数

data: 爬取的数据,目前主要是51job网站的“地图”--不同区域的名字、区域码以及一个和工作数有关的数字,具体见代码;

rscData: 资源文件夹,目前只有user-agent;代理存储在数据库,代理的维持项目有空会开源;

job51Crawler:

scrapy生成的主文件夹,各文件的作用见scrapy文档。

job_area.py基本完成,分区域保存区域码,方便构造不同区域的工作的url。

job_url.py是用于爬取工作url的爬虫,会很快更新;

保存的是job_id,通过简单的构造可以得到url,保存到数据库中还是建议保存id。

还有一个用于爬取具体工作的爬虫尚未添加。

Proxy和User-Agent部分暂时不介绍,具体可见代码注释。后期有时间再展开。

更多的细节暂时不讨论,因为可能会再变,后期会陆续添加。有需要可看代码注释,较为详细。

有任何建议或者问题请联系我:[email protected]

todo

1数据库添加

2job_num爬虫添加,用于更新每次工作数

如果可以增量爬取,则job_num可省略

3针对具体工作信息的爬虫

4待规范化:日志,注释等

说明:

area_code部分需要手动删除(已处理)

job_ids中是测试得到的北京部分的工作ids,并非全国

Releases

No releases published

Packages

No packages published

Languages