SpringBoot + webmagic + quartz 最开始学习webmagic写的demo,后来改成自用信息来源获取 自用的爬虫,打算买房,但是现在新房市场几乎都要全款所以考虑二手房,先观望吧,目前二手房单价也很高,也没有什么量 最开始想抓取链家信息,结果有防IP设置,单位时间访问量超过次数会要求输入图片验证码,所以就先放弃了
webmagic 有从链家以及杭州二手房交易监管平台抓取,两种是不同方式,链家的是从页面抓取信息,杭州二手房交易监管平台则是解析json quartz 做了个定时任务,每6小时抓取一次,可以获取新的挂牌信息以及更新仍然挂牌的信息,如果信息长时间未更新,很可能已经被交易了
http://localhost:8002/index http://localhost:8002/lianjia
有空可以弄个地图找房功能,以及房价趋势 去链家,我爱我家抓取成交信息
2018-11-1 去掉了webmagic,webmagic已长期不维护,并且爬取失败直接结束,导致只能抓取部分新数据,直接使用RestTemplate+线程池+无限循环反而更加高效 后期尝试抓取透明售房网的数据