Skip to content

99246255/housecrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

简介 杭州二手房交易监管平台信息爬虫

SpringBoot + webmagic + quartz 最开始学习webmagic写的demo,后来改成自用信息来源获取 自用的爬虫,打算买房,但是现在新房市场几乎都要全款所以考虑二手房,先观望吧,目前二手房单价也很高,也没有什么量 最开始想抓取链家信息,结果有防IP设置,单位时间访问量超过次数会要求输入图片验证码,所以就先放弃了

1 概述

webmagic 有从链家以及杭州二手房交易监管平台抓取,两种是不同方式,链家的是从页面抓取信息,杭州二手房交易监管平台则是解析json quartz 做了个定时任务,每6小时抓取一次,可以获取新的挂牌信息以及更新仍然挂牌的信息,如果信息长时间未更新,很可能已经被交易了

2 SpringBoot启动后界面主页

http://localhost:8002/index http://localhost:8002/lianjia

3 下阶段功能

有空可以弄个地图找房功能,以及房价趋势 去链家,我爱我家抓取成交信息

2018-11-1 去掉了webmagic,webmagic已长期不维护,并且爬取失败直接结束,导致只能抓取部分新数据,直接使用RestTemplate+线程池+无限循环反而更加高效 后期尝试抓取透明售房网的数据

Releases

No releases published

Packages

No packages published

Languages