一个小爬虫demo,StringBoot,HtmlUnit,Jsoup, 这前段时间有一件事“格力举报奥克斯空调质量",我看了一下京东这两家店铺,感觉很有意思,看着就觉得奥克斯空调选购指数高很多。所以,就尝试爬一下看看,练手小demo。
jd页面数据绝大多数是通过Ajax请求获取的,我用浏览器调试工具(F12),发现这些Ajax很复杂,多层调用,并且关键数据做了些混淆,就是直接去请求Ajax链接返回的数据还需要通过特定JS处理,得到原有数据。一直被卡住了,最后通过一个HttpUnit(带JS解析器,可以爬取动态页面)。
项目分析 主要是想爬格力和奥克斯 空调的各型号的选购指数,顺带把商品标题、价格、评论人数、店铺、选购指数等都爬了一遍,
由于一个系列,有多个型号(大小匹数),但这个系列的选购指数是差别不大了,就不用都爬了。
环境准备 jdk1.8
maven
mysql
详细请访问:https://blog.csdn.net/weixin_43126117/article/details/93512929